生数科技完成新一轮融资,国内多模态大模型厂商着力追赶Sora

3月12日消息,北京生数科技有限公司(以下简称“生数科技”)宣布完成新一轮数亿元融资,由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲继续跟投。本轮由华兴资本担任独家财务顾问。

公开资料显示,生数科技成立于2023年3月,主要业务集中在图像、3D、视频等原生多模态大模型的研发。据介绍,本轮融资将主要用于多模态基础大模型的迭代研发、应用产品创新及市场拓展。

今年年初,OpenAI发布文生视频产品Sora,以超长生成时长与高质量视频引发广泛关注。启明创投合伙人周志峰曾预测,随着Scaling Law在视频生成领域的进一步加强,多模态技术将引领一系列令人瞩目的创新。而着眼于国内多模态大模型赛道,生数科技、爱诗科技等企业已成为国产Sora的有力竞争者。

近期发布的多模态模型中,无论是Sorad还是Stable Diffusion 3,均采用了Diffusion Transformer架构(DiT),即在Diffusion Model(扩散模型)中,用Transformer替换常用的U-Net,将Transformer的可扩展性与Diffusion模型处理视觉数据的天然优势进行融合,从而在视觉任务下展现出卓越的涌现能力。

目前来看,Diffusion Transformer架构(DiT)是经过验证、初步得到业内共识的技术路线。生数科技CEO唐家渝表示,目前业内的技术路线已经趋于收敛。此前爱诗科技CEO王长虎也曾表示,Sora的出现验证了以Diffusion+Transformer为基础的视频生成大模型能够实现更优的表现,也坚定了爱诗科技未来的发力方向。

追本溯源来看,DiT架构由伯克利团队于2022年12月发表。但其实早在2022年9月,生数科技创始成员就提出了基于Transformer的网络架构U-ViT,两项工作在架构思路与实验路径上完全一致,均是将Transformer与扩散模型融合。

2023年3月,生数科技曾开源了多模态扩散大模型UniDiffuser,在参数量和训练数据规模上与Stable Diffusion直接对齐。除了单向的文生图以外,Unidiffuser也支持更通用的图文任务,能够实现图生文、图文联合生成、图文改写等多种功能。当时模型架构便是基于Diffusion Transformer架构(U-ViT)。

尽管对扩散模型融合架构已有研究基础,但唐家渝坦言,目前与Sora相比还是存在一定差距。如生数科技、爱诗科技也都设立了追赶Sora的目标。

唐家渝表示,拥有在大规模GPU集群上实现高效兼容、低成本的模型训练经验之后,追赶Sora肯定比追赶GPT-4轻松很多,预计今年可以达到Sora目前版本的效果。

在爱诗科技最新一轮融资消息中也提及,新融资将主要用于底层视频大模型的技术研发及团队搭建。据王长虎透露,未来将集中人力和资源,在3至6个月内赶超Sora目前水平。

在为行业带来震撼之余,Sora也改变了国内厂商在研发方面的布局。“能力扩展到3D、长视频的最大限制因素其实是资源。”唐家渝表示,在不确定路线时需要投入大量成本进行实验,而OpenAI用大量资源验证路径可行性实际上打消了很多疑虑。

因此,据唐家渝所说,生数科技在内部提升了长视频生成的优先级,针对长视频画面的连贯性等问题展开研发工作,同时也将进一步完善已有的数据清洗、打标体系。

在商业化落地方面,基于其MaaS(模型即服务)能力,生数科技一方面以API的形式向B端机构直接提供模型能力,主要合作客户集中在游戏公司及互联网企业;另一方面选择研发垂类应用产品,按照订阅等形式收费,目前已经上线视觉创意设计平台PixWeaver、3D资产创建工具VoxCraft。

相较于数据资源相对充足的图文、视频领域,3D资产生成相关的数据质量相对较差。针对这一点,唐家渝称目前生数科技内部选择采用2D数据与3D数据联合训练的方案来提升建模效果。

在生数科技此次新融资的资方中,如智谱与百度均在大模型方面有所布局。对此唐家渝回应称,智谱与百度的模型产品均偏向语言模型,更看重理解和逻辑推理能力,与生数科技的多模态能力为互补与合作关系。