Pika融资、快手上线可灵,苹果的AI产品为何“烧冷灶”?

苹果公司(AAPL.US)WWDC开发者大会上推出了名为Apple Intelligence的AI产品,然而当日股价收盘跌1.91%。有趣的是,6月11日Wind数据中的Sora指数(8841756.WI)涨1.55%。

为什么会有这样的区别?

苹果选择了避开当下正热的视频大模型,推出的AI相关更新更多侧重文字领域,而国内概念股的涨幅与近期文生视频大模型热度又起紧密相关。国外如明星AI视频生成公司Pika完成新一轮融资,总额8000万美元的B轮融资后,公司估值将超过4.7亿美元。国内如快手(1024.HK)“可灵”视频生成大模型正式上线,采用了与Sora相似的技术路线。

在多位行业人士看来,苹果聚焦AI文字而非视频领域的整合,更多出于成本与实用性等方面的考量。

苹果避开Sora“战局”

苹果推出的内置大语言模型可让iPhone、iPad和Mac理解并生成语言和图像。Siri通过接入ChatGPT,具有了语义检索功能,可以智能搜索照片、日历、文件和邮件等内容,还可以免注册使用大部分ChatGPT的功能。

天风国际证券分析师郭明錤发布简评称,苹果新发布的Apple Intelligence套件展现了生态整合与界面设计优势,对使用者很实用,但对投资人只是锦上添花,后者期待看到原创且非用不可的功能。

面壁智能首席研究员韩旭对记者表示,从接入操作系统的角度来看,苹果主要需要AI来理解人的意图和调用系统层面的接口,这些需求和Sora的出发点不完全一致,但与多模态输入文本输出的大模型较为匹配。Sora这类生成图片或视频的模型,目前还是和软件尤其是视觉处理软件结合比较合适。

为什么苹果没有加入Sora的“战局”?

一位AIGC视频应用厂商人员对记者表示,从产品思维和经营角度来讲,苹果只会落地相对比较成熟,且投入产出比能见度更加可观的领域。在手机硬件交互的层面,文字的使用场景更多,从研发投入到实际推理成本方面来讲,该领域对苹果目前的技术积累而言也相对更有性价比。

另一位行业技术人员表示,今天的LLM服务(大型语言模型服务)在文字领域基本实现保本,文生图领域不一定,文生视频领域一定会亏损。这也是这次苹果WWDC大会暂时没有整合视频AIGC能力的重要原因。

相对于苹果公司的动作,国内大模型赛道目前对视频领域寄予厚望。今年4月,清华大学人工智能研究院副院长、生数科技联合创始人兼首席科学家朱军教授代表清华大学与生数科技,发布中国首个视频大模型Vidu,不久前,快手上线的视频大模型“可灵”也引发了一定程度的热议。

记者将Sora代表视频文案作为提示词,输入快手“可灵”,进行生成视频对比,以“东京街头女郎漫步”为例,当时Sora视频存在女郎走路过程中存在腿部变形、腿部交叉换位时错乱、右腿连续两次在前方迈步等错误。快手“可灵”也存在类似问题。

天风证券认为,快手3D VAE+DiT架构对算力、模型和数据质量的提升已展现出能够实现商用的结果,同时时长、比例的自定义使得生成素材的可用性大幅加强,尽管在一些复杂语义理解上逊色于Sora,但在稍简单的场景下已差距不大。

多模态成中国大模型赛道机会

一个优秀的视频生成模型需要考虑四大核心要素——模型设计、数据保障、计算效率,以及模型能力的扩展。

针对Sora存在的不成熟之处,OpenAI曾表示,Sora可能难以准确模拟复杂场景的物理原理,可能无法理解因果关系,可能混淆提示的空间细节,可能难以精确描述随着时间推移发生的事件,如遵循特定的相机轨迹等。

但这更像是一个普遍存在的问题。爱诗科技创始人王长虎此前表示,目前的视频大模型都是直接从视频数据里学习物理知识,但真实视频中往往包含很多信息,很难分别把每个物理规律精确地学习好。在给模型输入视觉画面的同时,单独加入人手、动物尾巴等3D建模信息作为约束,可以辅助大模型学习,也能优化效果。

可灵大模型采用的是原生文生视频技术路线,替代了图像生成+时序模块的组合。目前,在隐空间编/解码上,主流的视频生成模型通常采用Stable Diffusion的2D VAE进行空间压缩,但这对于视频而言存在明显的信息冗余。因此,快手大模型团队自研了3D VAE网络,试图寻找训练性能和效果之间的平衡。另外在时序信息建模上,快手大模型团队设计了一款全注意力机制(3D Attention)作为时空建模模块。

生数科技CEO唐家渝提到,多模态大模型的研究仍处于起步阶段,技术成熟度还不高。这一点不同于火热的语言模型,国外已经领先了一个时代。因此,相比于在语言模型上“卷”,唐家渝认为多模态更是国内团队抢占大模型赛道的一个重要机会。这一点与启明创投合伙人周志峰有相同之处,他也认为如今的大模型已从原来的纯语言模态逐步走向多模态的探索。

北京智源人工智能研究院副院长兼总工程师林咏华对第一财经记者表示,中国在多模态领域弯道超车是有一定可能性的,但多模态模型的成功要素依然是算力、算法和数据。目前算法层面,中美团队之间差异没有那么大,行业也仍有办法去解决算力问题,但要获取海量高质量数据,依然难度很大。