碾压式领先!OpenAI的Sora横空出世 一级市场怎么看?
《科创板日报》2月18日讯(记者 敖瑾) OpenAI再次以一款多模态大模型工具引爆全球。这款名为Sora的文本转视频模型,可以基于描述性文字指令,生成长达60秒的视频,并理解呈现用户想象中的情绪以及光影。
此前,海内外已有多个创业项目专注于视频生成领域,但Sora的出现,仍然给这些起跑者带来不小冲击。有关注AI领域的一级市场投资人对《科创板日报》记者表示,“大多数项目成立以及在技术探索方面的时间都不算长,目前看来,Sora在技术路线上可以说是处在碾压式领先的地位,因此很多创业公司的价值可能需要重新判断了。”
目前,Runway、Pika等AI视频公司,在一级市场受到风险资金的密切关注。其中,公开资料显示,Runway截至目前已累计融资超2.5亿美元。对于Sora的推出,该公司的联合创始人Cristóbal Valenzuela在社交媒体上回应表示,“游戏开始了”。
碾压式领先的Sora
上述不愿具名的AI投资人对记者表示,Sora的出现,代表着当前已经有一个通用的视频生成方案被探索出来了。“但OpenAI目前公布出来的,只是整个模型很小的一部分。包括Sora模型需要什么样规格的视频数据,哪个地方需要去做标注,标注的量有多大,过程是人工的还是自动的,这些整体思维目前全世界也只有OpenAI具备。”
OpenAI日前发布的技术报告,对Sora进行了初步的介绍说明。该报告的内容包括:Sora得以将各类视觉数据转换为一个统一的表现方式的方法,这是大规模生成模型训练实现的前提;以及Sora的能力和局限性定型评估。但报告并未对模型和实现细节进行披露。
有分析人士解释称,Sora的创新性核心在于时空补丁(Spacetime Patches)。
以前文生视频的方法,要求在训练中使用的图像和视频都具有相同的大小,这需要大量的预处理来将视频剪裁到合适的大小。但因为Sora在“补丁”而非完整帧的视频上进行训练,所以它可以在任何视频或图像上进行训练,而无需剪裁。这样做的结果是,Sora可以使用更多数据进行训练,从而获得更高质量的输出。
此外,Sora的另一个重大进步,是它所使用的架构。传统的文本到视频模型是扩散模型(diffusion models),上述Runway就是这种模型;而像GPT-4这类模型则为Transformer架构。Sora则是两者的结合体。也就是说,Sora不是预测序列中的下一个文本片段,而是预测序列中的下一个“补丁”。通过这种架构,OpenAI可以为Sora的训练提供更多的数据和计算资源,并最终达到更高质量的效果。
上述长期关注AI领域的一级市场投资人对《科创板日报》记者表示,OpenAI可以说是点亮了一棵科技树,“给大家证明了这个东西在哪,你可以去做,至于有没有能力做到,还是需要大量的时间和工程”。
OpenAI自己也用了“里程碑”这样的字眼来形容Sora模型。“扩展视频生成模型,是建立通用物理世界模拟器一个有前景的途径。”
重构视频生成领域?
紧随Sora推出而来的,还有OpenAI的最新融资信息。据媒体援引知情人士消息,OpenAI已经完成了一笔交易,其投后估值目前已达到800亿美元或更多,估值在9个月内暴涨两倍。
而对于其他视频生成类企业而言,Sora所代表的新技术路线的出现,则意味着公司价值将被市场重新检验。上述AI投资人对《科创板日报》记者表示,“‘Sora让AI创业者和投资人彻夜无眠’的说法,不是标题党,比如你如果是做视频生成的,Sora的出现会让你重新看待自己的方法路线,这就意味着,你之前投入的钱,还有投资人之前投的钱,都有可能浪费掉了。”
光速印度合伙人Hemant Mohapatra在接受媒体采访时表示,Sora的出现,将会让一切都发生改变。“它生成的视频质量之高,会让库存视频生成公司立即感受到威胁。”Adobe的股价走势或许可以印证这一说法。在Sora面世后,作为库存视频生成公司代表的Adobe股价,应声下跌超过7%。
其他AI初创公司无疑也将受到Sora面世的影响。目前,全球较为知名的AI视频生成初创公司,包括Runway、Pika Labs、Stability AI等,这些公司之前都备受风险资金的关注。
其中,Runway成立于2018年,是较早的AI视频创业项目。截至目前,Runway在一级市场融资金额已超过2.5亿美元,投资方包括谷歌、英伟达等众多知名机构,项目估值达到15亿美元。该公司数月前刚发布了Gen-2模型,目前已对外开放使用。
Pika Labs则因为其创始人身份,年前在国内亦火爆了一把。目前,成立仅半年多的Pika,已累计融资超5500万美元,其投资方包括Lightspeed Venture Partners等硅谷众多知名风险投资机构以及投资人。
而除了初创公司,谷歌、Meta等大公司也都在进行视频生成技术的探索。其中,Meta在2022年就发布了首款视频生成工具,名为Make-A-Video。去年,其又测试了新的文生成视频模型Emu Video,扎克伯格曾表示该模型将被嵌入Facebook和Instagram。
上述AI投资人对记者表示,随着Sora所代表的新技术路线的出现,这些更早入局的AI视频公司价值可能会经历重构,而对于国内公司,其表示目前总体还处在追赶状态,短期内出现类似Sora这样的模型或许较难。
“去年一年我们追赶的速度已经很快了,但这个过程还是受到了包括算力、工程等方面因素的制约。在模型足够成熟之前,很难有更多的应用出现,所以还是要一步一步来。”