☰

AI视频神仙打架，BAT跟不跟？

继发布最新AI大模型“Genmini”仅一星期后，谷歌又公布了自己的最新AI研究成果。

12月12日，谷歌宣布，其与全球顶级计算机视觉专家、华裔AI教母李飞飞及其学生团队合作，推出了AI视频生成模型“W.A.L.T（全称为Window Attention Latent Transformer）”。

与前段时间刷屏全网、A股信雅达董事长女儿创业研发的PIKA 1.0类似，W.A.L.T也是一款AI视频生成模型。

此前在12月6日晚间，谷歌曾发布其最新一代的多模态AI大模型Gemini，并同步发布了演示视频。

但Gemini发布后不久，即被爆出其演示视频存在通过剪辑等手法、刻意美化模型效果的情形。正因如此，谷歌也一度陷入“造假”指控中。

仅仅6天过去，谷歌又通过发布W.A.L.T瞄准了AI视频生成，这也是如今AI应用落地最为火热的领域之一。

携手华裔AI女神，谷歌抢滩AI文生视频

与此前走红的Pika 1.0类似，W.A.L.T同样支持文生视频、图片生成视频、3D视频生成等功能。

而视频效果方面，根据演示视频及论文，W.A.L.T可以通过自然语言提示，生成3秒长的每秒8帧、分辨率为512x896的视频。

▲（图源/W.A.L.T）

产业人士“歸藏”公开评价称，W.A.L.T的效果“比Pika 1.0还要好得多，清晰度和动作都非常好”。

有趣的是，Pika的创始人、信雅达董事长的女儿郭文景，其实与李飞飞颇有渊源。

在退学创业之前，郭文景曾在斯坦福大学AI实验室（NLP&图形学方向）攻读博士学位，而李飞飞则是斯坦福大学首位红杉讲席教授，亦曾在斯坦福大学AI实验室中任职。

与后起之秀郭文景相比，李飞飞堪称全球计算机视觉领域的奠基人与技术泰斗，也是包括谷歌在内、全球科技大厂争夺的人才资源。

根据公开信息，1976年，李飞飞出生于北京，并在成都长大。1992年，16岁的李飞飞随父母远赴美国定居，并在三年后进入普林斯顿大学攻读物理学。

在之后的求学生涯之中，李飞飞一步步确立了对于AI的研究兴趣，并将研究重点转移至彼时十分冷门的计算机视觉领域。2007年，李飞飞在经费短缺的情况下，开始了自己的首个项目ImageNet（教机器识别图像的数据集）。

当时，AI图像识别模型仅能认出四种物体：汽车、飞机、豹子、人脸，因为以往研究者一般只会针对这四类物体进行模型训练。想让AI认识一种物体，需要人工先在图片中标记出目标物，再将大量这样的图片“喂”给AI进行训练。

而李飞飞的设想是，如果有一个足够大的、经过标注的数据集，就能训练出理论上“无所不知”的计算机视觉模型。

2009年，ImageNet正式发布，很快成为了几乎所有视觉模型的训练和测试素材库。李飞飞也由此“一战成名”，拥有了“华人AI教母”等头衔。至今，ImageNet仍是全球AI产学界最知名的大型视觉数据库之一。

无论是一周内连发两大模型，还是与李飞飞团队的合作，都说明谷歌在多模态AI模型研发方面正铆足了劲。

AI视频“神仙打架”，国内玩家怎么看？

在刚刚过去的一段时间内，AI视频生成赛道十分热闹。除了Pika 1.0、W.A.L.T，有不少AI视频生成工具密集涌现出来或进行了功能更新。

举例而言，11月初，美国生成式AI独角兽企业Runway对其自研视频生成模型Gen-2进行了功能更新，着力提升生成结果的保真度和一致性。

11月中旬，以社交产品起家的科技大厂Meta发布了Emu Video模型。

11月末，美国文生图片创企Stability AI推出了名为Stable Video Diffusion的视频生成模型，提供SVD和SVD-XT两个模型。

▲（图源/W.A.L.T）

而国内方面，字节跳动、阿里、百度等科技大厂均已跑步入场。

其中字节跳动于11月18日推出了文生视频模型PixelDance，提出了基于文本指导+首尾帧图片指导的视频生成方法，使得视频生成的动态性更强。

紧随其后，阿里上线了Animate Anyone模型。用户只需向该模型提供一个静态的角色图像和一些预设的动作（或姿势序列），就能得到该角色的动画视频。

根据此前的公开信息，百度文心大模型的类似功能则在内测中，不久后会以插件形式开放。

国内外玩家的积极下场，在某种程度上说明AI视频生成赛道将成为这一轮AI技术升级过程中的下一个受益方向。不少产业人士已经感知到了市场的风向，英伟达高级研究科学家、曾在OpenAI工作过的Jim Fan就在社交媒体上写道：“2022年是图像之年，2023是声波之年，2024（将是）视频之年！”

中信证券研报则指出：“参考文生图在广告领域的应用，文生视频同样有望推动生产力革命，降低生产成本、创作门槛，促使AIGC技术产业化进程加速。我们认为从能力的角度出发，文生视频有望率先在短视频和动漫两个领域落地。”

不过，技术革新的另一面，则是对现有业态的冲击。

在国内一家视频创作工具企业工作的Leo告诉「市界」：“今年早些时候我们一直认为AIGC主要还是作用在图文创作领域，但距离满足商业视频要求还要经过一两年的时间。”他补充道，这里提到的商业视频要求包括分镜脚本制作时保持对象的一致性、连续性等。

而现在看来，视频生成工具正以数倍于预期的速度进行迭代。在技术进步的倒逼下，现有的市场参与者们也不得不对自动化生成功能主动出击和布局。否则面临的，可能是被时代抛弃的结局。

作者 | 董温淑

编辑 | 董雨晴

运营 | 刘珊

相关资讯