通信巨头入局视频生成,直接霸榜权威评测:人物跨越多场景依然一致

视频生成模型评测权威榜单VBench,突遭“屠榜”。

这个突然杀出来的模型,就是中国电信人工智能研究院(TeleAI)刚刚发布的视频大模型(VBench上的代号为TeleAI-VAST)。

而且16项子指标有9项都是第一,大幅领先第二名。

其中更是有5项得分超过99%,并在物体分类和人体动作两项拿了满分100%。

来看一段样片(请移步公众号)

这段短片中,四位女主角为寻找宝石,分别踏上了各自的冒险之旅。

具体细节不展开太多,但关键之处在于,每个人物在各自的分镜中,形象都和开头的合影保持了一致。

要知道对于视频生成来说,保持单个人物的前后一致就已经不是一件容易的事,TeleAI视频生成大模型却一下处理了四个。

除了开头三分钟的宣传片,TeleAI展示了另外几段作品。

第一段视频中,女主角先后出现在公交车、马路、酒吧吧台和座位四个不同的场景。

在这四个场景中,人物的外貌、发型、衣着全都保持了一致,画面整体的色调风格也很统一。

这说明,TeleAI视频生成大模型已经实现了不同的场景变化下主体的时空一致性。

接下来的这段画面里,两只猴王展开了一场近距离对战,期间的人物动作、镜头跟随,都已经呈现出了电影级的水准。

如果细节再继续打磨优化,拿来拍电影指日可待。

人物特征、时空一致性和动作精准性都有了,还能再做些什么呢?

目前的视频生成模型大多生成的都是默片,这次TeleAI把声音也加进来了。

先看视频(请移步公众号)

从视频中可以看到,TeleAI视频生成大模型生成的声音,不是单纯地来上一段音乐那么简单。

仔细听会发现,舰船的鸣笛声、飞机起飞的轰鸣声、潜水艇的水声,以及最后火箭冲出水面的声音,都与画面中看到的内容做到了同步。

也就是说,TeleAI视频生成大模型作品中体现的一致性,已经跨越模态了。

不仅效果和成绩优秀,TeleAI视频生成大模型的技术架构也十分独特。

它没有采用传统的路径,而是全自研了一个“二阶段视频生成技术”——VAST(Video As Storyboard from Text)。

TeleAI团队没有选择一步到位,而是将视频的生成分解成了两个过程。

在第一阶段,采用多模态大型模型根据文本输入生成中间素材,包括姿势、分割图和深度信息。

TeleAI团队把这些中间表示称作“故事板”,是模型能够体现场景语义和结构本质的关键。

第二阶段,才是真正的视频生成。

利用基于DiT架构的扩散模型,TeleAI以这些表示为条件,结合目标对象的文本描述和外观信息,生成最终的视频。

这种分段式的方式,使得生成视频时能够精确控制主体的位置、运动和视觉外观。

而且,TeleAI视频生成大模型不仅能在模型上分“阶段”,还可以把视频按场景分成“片段”。

当创作者想要生成一段长视频时,视频生成工具可以先设计具体的分镜头,开头3分钟的视频就是用这种方法创作出来的。

针对每一个分镜,生成具有一致性的生成中间素材,这些中间素材不仅作用于模型内部,对创作者也是可见的,甚至还能进行调整修改。

因为对片段进行了划分,所以,只要在每个片段中都能保持人物一致性,可以生成的视频长度将是无限长。

中国电信介绍,本次发布的视频生成大模型将于明年开启公测,可以期待一波新鲜的AI大片了。

此次亮相的视频生成大模型,是TeleAI整个大模型布局中的一个环节。

此前,TeleAI已经自主了研发覆盖语义、语音、视觉、多模态的“星辰”大模型能力体系。

星辰大模型在央企中唯一开源,还完成首个全国产化万卡万参大模型训练,并打造业界首个支持40种方言自由混说的语音识别大模型。

基础模型之外,TeleAI还面向工业、教育等领域推出50多个场景大模型,并构建了“星海”数据智能中台,形成了9万亿Tokens高质量数据集。

在使用方式上也另辟蹊径,甚至推出了发短信和大模型对话的功能。

除了模态、场景、数据和使用方式,TeleAI也全新推出了大模型智能体平台,与视频生成大模型一同登上TeleAI开发者大会。

可以期待一下TeleAI下一波的AI产品了。