文生视频爆发 生数科技商业化重点仍在B端市场
《科创板日报》9月12日讯(记者 张洋洋) “我们目前判断下来的话,B端市场有比较明确直接的需求,所以B端是我们长期非常重点的一个方向。C端的话,我们也在不断的探索过程中。”昨日,在生数科技媒体开放日活动上,当问及产品商业化时,生数科技CEO唐家渝如是回复到。
4月底,由生数科技和清华大学联合研发的国内首个纯自研原创视频大模型Vidu面向全球发布,7月底正式上线,全面开放使用,该模型生成视频时长最长为16秒,公司称全面对标Sora。
按照唐家渝的说法,Vidu目前采取SaaS订阅和API接口两种商业化模式。从收入角度来看,目前阶段B端市场收入更大,C端增长曲线“非常高”。
Sora之后,今年上半年,大模型领域最热闹的细分赛道要数文生视频,国内AI厂商加速赶来,一众产品在6-7月迎来发布更新潮。
不过,做好文生视频这件事并不简单,这一点从OpenAI在今年初发布了Sora之后,仍未正式对外开放便可见一斑。
这主要是因为当前的视频生成技术产出的结果与用户期望之间仍存在较大差距,这些模型在理解和应用物理规则方面表现不足,并且在生成过程中缺乏有效的可控性。
在让视频生成更加稳定、可控这件事情上,昨日,Vidu更新了一项功能,全球首发“主体参照”功能,该功能能够实现对任意主体的一致性生成,让视频生成更加稳定、可控。
所谓“主体参照”,就是允许用户上传任意主体的一张图片,Vidu就能够锁定该主体的形象,通过描述词任意切换场景,输出主体一致的视频。
唐家渝表示, "主体参照”这一全新功能的上线,代表着AI完整叙事的开端,AI视频创作也将迈向更高效、更灵活的阶段。无论是制作短视频、动画作品还是广告片,在叙事的艺术中,一个完整的叙事体系是“主体一致、场景一致、风格一致”等要素的有机结合。
可以看到的是,生数科技寄希望于“主体参照”功能,在竞争激烈的视频大模型领域维持竞争优势。
视频作为图像模态的再扩展,将AIGC的技术推向高潮,也让AIGC的应用离大众越来越近。在技术路径上,国内视频生成的主流选择是基于Transformer架构的扩散模型,这一架构能使模型在处理语言、计算机视觉、图像生成等领域表现出扩展能力。
商业方面,从公开情况来看,国内外厂商的商业选择上还是比较类似,即便是像Sora、Runway,都在积极拥抱好莱坞,或者服务广告企业。
在技术路线和商业化路径上,行业内几乎已经处在同质化状态。
对此,唐家渝认为,在技术路线上,现在处于底层架构收敛的状态,同质化并不代表大家所有进展的能力都相同。因为在架构这一大的基础上,中间有非常多的环节,例如怎么有效地去进行Scale up,例如视频如何有效的压缩,都会有非常多的一些技巧、实践的经验在里面。包括说生成的速度,在保证质量的情况下能否保证快速,这些其实都是在所谓架构收敛的大思路下,还涉及到的非常多的算法技巧、算法难点,包括算法工程化的一些难点,这些是导致大家差异性的主要原因。
“商业化选择虽然比较类似,但整体AI生成视频领域,还处于发展前期,国际头部玩家在齐头并进或者叫共同扩大市场。”唐家渝表示,“关于目前的客户选择,生数科技会关注企业和视频的相关性,最直接用于各种视频内容创作的,以及天然与视频内容相关的领域,比如广告、游戏、短剧和影视等。”
面对激烈的市场竞争,他坦言,技术仍是关键因素,目前的视频生成只是初步符合物理规律,还有很高的天花板需要突破,比如更强的模型能力以及更多模态的协同生成。