挑戰Sora!陸發布首款國產文字描述生成影片AI模型
大陆清华大学联合北京生数科技有限公司27日首次大陆自行研发的文字描述生成影片的人工智慧模型「Vidu」,能理解中国元素并生成视频(图/取自新浪财经)
大陆清华大学联合北京生数科技有限公司27日发布文字描述生成影片的人工智慧模型「Vidu」,这款由大陆自行研发的产品以美国人工智慧研究单位Open AI今年2月发表的「Sora」为竞争标竿,目前Vidu能够一键生成长达16秒、画质1080P的高清影片内容。
央视新闻报导,清华大学教授、生数科技首席科学家朱军在中关村未来人工智能先锋论坛上进行现场展示,Vidu模型采用团队原创的Diffusion与Transformer融合的架构U-ViT,能够模拟真实物理世界,具有长时长、高一致性、高动态性的特性。
朱军表示,「Vidu与Sora一样,都抓住了视频生成的精髓——对现实世界物理规律的模拟,并且从文本到视频的转换是直接且连续的。」
朱军告诉央视新闻记者,Vidu团队在今年1月已实现4秒影片的生成,过去两个月,团队的原创技术路线已经走通,产品正以更快的速度迭代,「Vidu还能理解中国元素并生成视频,例如熊猫和龙等。」
虽然与Sora对外发布的可一键生成1分钟视频时长有差距,但德国汉堡大学多模态智能系统技术研究所所长张建伟评论称,「在Sora之后,这支团队可以在短时间内打造出这么明亮的产品,做出了可以说跟国际上平行的一些结果,非常令人鼓舞。」
央视新闻引述张建伟的观察,「更令人鼓舞的是自己研发的算法,这些人才的积累,这个是最珍贵的财富,而不是这个产品本身。」