对Sora如何见招拆招?12位从业者聊 Sora
出品|本站科技《态度》栏目
采访|丁广胜、崔玉贤、闫妍
整理|普子胥
一位女士,在东京街头高傲行走。神态逼真、动作流畅。
继2023年GPT大火后,一则时长60S、却远超以往同类型时长的视频,正由OpenAI发布Sora文生视频模型推出,再次踩踏出了业界的震撼、迟疑、兴奋、甚至沉默...
sora的横空出世,是警钟还是机会?是发令枪,还是倒计时?为此,本站科技深入一线,去追问十余位中国人工智能领域的专家、企业家、影视从业者等,就sora的种种话题进行全面盘析。以下为本站科技对AI领域十余位专家、企业家采访节录:
一、Sora为何带来如此巨大的影响力
本站科技:文生视频不新鲜,但当下业界还是惊叹sora能力,大家惊叹核心点是什么?sora为何受到如此关注?
360公司创始人、董事长兼CEO周鸿祎:我认为真正惊叹的是,大家觉得它真实。sora做的视频,比较符合我们对世界的认知,和这个世界的运转规律和世界背后的一些物理定律,以及我们观察世界得来的常识都是一致的。
中国人民大学高瓴人工智能学院教授卢志武:惊叹的核心点在于Sora长视频生成能力,在内容连贯性和物理世界的模拟上均表现出色。
香港大学教授、徐图智能CEO徐东:先前Pika CEO郭文景说文生视频来到了ChatGPT2.0时代。根据Pika当时生成视频的结果,我只敢说是初现曙光。Sora出来,虽然它还有很多不完美的地方,但是证明这个赛道进展非常快,而且离实用的距离比我们想象中要小。总体来讲,我当时还是有点保守了。
Sora能生成60秒时长的视频,但还是有人不太相信能一键生成60秒。例如,女子在东京街道上视频,比较惊艳是特写的镜头,但视频中人在街道行走的部分,不一定是一次生成,也有人猜测有可能是几段合起来的。不过,Sora的技术能够解决当不同视角切换情况下如何保持生成内容一致性的问题,并且对人物特写很自然,这确实比较惊艳。此外,sora对比Pika就是前进了一大步。继2022年OpenAI发布ChatGPT后,这次Sora发布又是一个新的breakthrough,或者说是新的ChatGPT时刻。文生视频通常被认为是一个比ChatGPT更难的一个任务,因为全世界文字是有限的,排列组合能算出来总数的,不管是多么大的一个天文数字。从视频空间的角度来说,如果到了一个小时,一天或更长时间的视频,视频空间是一个人们根本不可想象的庞大解空间,比ChatGPT这个任务的解空间大很多倍,完全不在一个数量级。
哈尔滨工业大学计算学部教授左旺孟:与之前文生视频模型相比,Sora在生成的视频长度、视频质量和与物理世界的一致性方面都有显著进步。在一定程度上,Sora可以说是向世界模型迈出了重要一步。
南京大学智能科学与技术学院副教授、博士生导师易子立:对大多数人说,他们感兴趣的主要原因是效果好,相比之前产品效果上提升了一大截。一是,视频时长从几秒延长到了60秒,真正意义上实现了视频生成,而非短暂的定格动画或者动效生成。二是,生成的结果非常逼真,具有复杂的场景和丰富的细节。
我感兴趣的主要原因是,技术路线上回归到了transformer路线,开启了视觉和大语言模型“大统一”的时代,可能为将来的多模态基础模型和世界模型指明了技术方向。
商汤科技智能产业研究院院长田丰:从产品级来说,sora是走向AGI路上的一小步,大众期望中的“一大步”。一是,高维变低维,复杂变简单。OpenAI的工程化体现,文章变为token,视频变为patch(含视频帧间的语义描述与关系)。
二是,从“高频视角”到“自由视角”。因为训练时视频限制宽泛,生成视频可选择持续时间、分辨率、宽高比(构图、取景),不论横屏、竖屏,画幅大小,总有一款适合终端设备(竖屏手机、横屏电脑/车机屏、宽画幅AR眼镜等),随着模型迭代,总有一天能生成全景视频,当然伴随更多的仿真细节、和仿真错误——影视行业,多版本电影的生成,不同镜头语言的叙事方法,每个“虚拟机位”都是你挑选的不同演员“主角视角”。
三是,视频-文字补足:互联网上不缺视频,但缺少视频的详细文字描述,所以通过Dall-E 3中的视频高质量解说文字功能,为所有视频重新生成了大量精细化描述。
四是,MoE架构。Sora不是一个模型在战斗:图画是单张视频,视频是连续的图片。Dall-E 虽然不如Midjourney,但文生图模型保持物体稳定性要靠Lora小模型的单独训练,而Sora能在不同镜头中保持人物、物体的外观一致性——Sora可能会把更多用户抢走,视频AIGV工具对AI绘画工具的降维覆盖。
五是,两帧之间皆是留白:《洛杉矶缆车》的视频显示,AIGV生成视频,能以“上帝视角”制作影视短剧,可以控制视频时间方向、流速、植入场景与物体,不仅是扩展画面、换镜头视角,更会改变两个关键镜头之间的微场景、微剧情走向,但保证“殊途同归”,下一代导演面临“无限选择”的拍摄过程,“无限创意+无限剪辑”。
六是,生成智能,带来电影工程化:开源/开放电影共享“视频大纲”,魔法混剪,个人版创意电影,随心所欲——红色的车换场景/换车(下水道/森林等)视频显示,开源电影(基础模型)会出现,视频混合、融合电影等“电影魔法时代”到来——一部经典电影、创意电影,就会为其他电影制片方提供“基础运动轨迹”,展现更多向经典致敬的桥段。
美图公司技术副总裁兼美图影像研究院负责人刘洛麒:文生视频的门槛比文生图高很多,之前的文生视频模型只能关注特定类型的视觉数据或是较短、固定尺寸的视频,在数据质量、算力、多融合技术等方面都还有很多需要突破的关卡。而Sora是通用视觉数据模型,在生成质量、时长、生成方式等方面重新定义了AI视频生成模型的标准,尤其是在60秒超长视频生成上的重大突破。通过Spacetime Patch,Sora能够生成逼真且还原现实世界物理规律的视频,包括真实世界和数字世界。
可以看到Sora展示了“涌现的模拟能力”,这也是机器模拟真实世界的一个重要里程碑。 除了显著的表现能力之外,更关键的还在于Sora带来的技术和商业革命,以及引发的产业机会,包括对影视、广告、游戏、短视频等生产力领域的变革。
本站科技:文生视频模型应用公司有Runway、Pika等,先前他们已经斩获相关客户,sora的出现会在多大程度上影响整个生态格局?
360公司创始人、董事长兼CEO周鸿祎:Sora会带来整个产业巨大的进步。Sora出来后,大家都觉得Sora比Pika、Runway要强很多,这很正常。Sora看起来是个文生视频的工具,但实际上是AGI(通用人工智能)的第二个突破点,是解决人工智能对这个世界的观察、交互、认知,以及建立常识的重要里程碑。在此基础上,人类可以创造各个领域的超级工具。例如:在自动驾驶、生物医学、蛋白质、基因研究,包括物理、化学、数学的学科研究上,大模型都会发挥作用。
香港大学教授、徐图智能CEO徐东:Runway和Pika现在当然很紧张。他们是创业公司,不管从人力资源、算力资源、融资能力、用户数量等相对OpenAi都不是一个数量级。Sora出现后,他们压力是巨大的。反而在国内市场,可能不少人会觉得Sora会有国产版,这反而倒是一个机会。
哈尔滨工业大学计算学部教授左旺孟:Sora的出现对文生视频的生态格局有很大的影响。不过其他公司仍有很多机会。一方面可以结合每个公司的垂直领域应用需求,例如,字节可以结合抖音短视频需求做出自己的特色。另一方面,基于视频生成的世界模型作为一个概念,本来也不是OpenAI最先提出来的:Runway在去年12月份就宣布要开发通用世界模型来解决AI视频生成问题。在世界模型的具体实现方式,仅仅依靠基于概率统计的相关性建模能否精确学习和表达物理规律,既不是唯一的方式,也未必是正确的方式。所以,也不排除其他公司仍有重新超越的机会。
新壹科技CEO雷涛:一是技术竞争压力加剧,市场会加速优胜劣汰。Sora问世意味着AI视频生成技术领域的重大突破。国内过去一年来,AIGC行业经历了百模大战后,亟待需要集合自身优势,更加专注垂直场景落地,满足不同领域和场景需求,方能为自身博得一席之地;
二是,市场份额重新分配,随之而来的商业模式和盈利期待也会更具象:Sora的诞生,无疑会对AI视频生成市场重新洗牌。就国内而言,要看哪些企业能结合、利用新技术,完善符合国情的产品,比如提供定制化的视频生成服务、跨业态合作;那么有了这样一款或几款爆款“产品”,行业探索新商业模式、变现盈利的路径也会变得更明晰。
南京大学智能科学与技术学院副教授、博士生导师易子立:要看OpenAI的算力能否支撑得起文生视频的生态,目前OpenAI的主要产品(包括GPT3.5/GPT4,dalle,whisper,TTS等)都用较严格的用量限制,这些都严重影响了生态的发展。文生视频有可能比上述模型更加消耗算力,对于OpenAI的算力基础设施是一个巨大的考验。当然,OpenAI可以选择和微软合作,利用微软的算力驱动自己的产品,在一定程度上能缓解算力不足的问题。
另外,就是OpenAI的工作重点是否会放在创作工具上,也是一个问号。Dalle3 为啥没有太多影响到MJ,并不是因为Dalle3技术落后,是因为Dalle3出的图大多数看起来风格化过重,不像真实的,不符合大多数设计师的需求。但OpenAI似乎也没有把工作中心放在如何改善Dalle3的效果,让出图风格更接近市场需求,因此没怎么影响到MJ的市场。OpenAI是一个有着更大格局的公司,我觉得它的目标是AGI,是世界模型,是一切AI的基础模型,而不是一个简单的图片/视频创作工具。
本站科技:对sora这样的复杂AI系统,有人认为人才第一、数据第二、算力第三,其他都是可替代的,如何理解这样的论断,您怎么看OpenAI的实力和战略目标?
中国人民大学高瓴人工智能学院教授卢志武:认同这一观点,关键的模型设计和工程化技术确实是由一流人才决定的,同时数据和算力也是不可或缺的。
360公司创始人、董事长兼CEO周鸿祎:科技竞争最终比拼的是人才密度和深厚积累。和很多创业者团队比,OpenAl这种有核心技术的公司实力是非常强劲的。OpenAI也不缺显卡,最近Altman说准备7万亿美元做新的算力架构,说明他们对算力的需求,可能超出我们每个人的想象。
我认为,其实Sora的很多东西都没有公布。Altman是个营销大师,他知道到哪一步做什么,能调动用户与观众的关注。但真正诀窍他们是绝对不会说的。
香港大学教授、徐图智能CEO徐东:人才肯定是第一位。我认为,在aigc时代,不是要搞大团队,而且是要小而精的团队。Sora团队成员都非常年轻。为什么人才要年轻化? AI现在已经从AI1.0时代变成AI2.0时代了。AI1.0时代是感知,AI2.0时代是生成人工智能。这个时代的变化要求研究人员要有很强的学习能力,AI2.0时代是需要重新洗牌的,AI2.0时代的有些技术比如Transformer可能大家都听过,但是AI1.0时代的不少人毕竟没真正训练过大模型。所以,为什么是新的人来领领军?因为人家是从AI2.0时代成长起来,人家摸的时间比你长,经验比你多。这方面,国内人才相对国外就更缺了。因此,研究上人才肯定是最重要的,而且是要懂AI2.0的人才。我2022年加入香港大学后,我们整个团队all in 扩散模型(diffusion model),团队积累了不少的经验包括在视频AI领域的经验。当然,数据跟算力也很重要。想出思路和解决办法,但是你没有算力或者没有数据支持,那只是想法而已。 至于怎么看OpenAI。进入Generative AI时代,现在就是OpenAI and others。OpenAI不仅在语言模型上领先,在文生视频这个领域也是遥遥领先。
哈尔滨工业大学计算学部教授左旺孟:不同于文生图像或语言大模型,文生视频有其自身的特殊性。文生图像的训练集如LAION-5B包含了58.5 亿个文本-图像对。与文生图像相比,文生视频更加复杂,原则上需要有更多的文本-视频对。然而,由于现实世界中视频的数量远远少于图像,高质量视频数量更少,并且互联网上视频的完整文字描述也更少。这些使得文生视频会更依赖开发人员的算法设计和代码实现,所以才会说人才第一。其次,能搜集到的数据显然是越多越好,最后才是一定的算力和反复的迭代开发。
新壹科技CEO雷涛:如果把AI系统类比成一个人体的话,那么人才相当于大脑,数据可以看作是血液循环,算力可以视为骨骼和肌肉,确实是比较核心的部分;不过,还有很多其它要素不能被忽视【人体的其它器官】,像算法的选择、模型的设计、系统的架构等都对AI系统性能有直接影响。
从Chatgpt和Sora这两个产品来看,OpenAI的目标是创造出通用人工智能AGI(Artificial General Intelligence),相对于实验室人工智能而言。如果AGI路径照进现实,那么资源的丰富度、人类能力边界都将得到拓展,意味着又一次生产力革命。
二、中国的AI玩家应该如何赶超和应对
本站科技:sora横空出世,国内大模型企业该如何见招拆招?我们与大洋彼岸的差距有多远?
昆仑万维董事长兼CEO方汉:Sora具有三维空间的连贯性、模拟数字世界、长期连续性和物体持久性、与世界互动的技术特点,是文生视频领域特别大的进步和突破,领先国内同行半年左右,对影视、视频、广告等行业有很大的冲击,但在理解层面没有特别大的突破,不能夸大Sora在通用人工智能方面的进步。国内厂商和国外厂商在文生视频的差距,不像大模型领域的差距那么大,Sora的发布会进一步加速国内厂商在该领域的投入。
中国人民大学高瓴人工智能学院教授卢志武:Sora也是一个通用的底座模型,与ChatGPT同等重要。国内企业需要重视多模态方向上的人才和数据积累,才有可能追赶上Sora。与国外的差距在0.5-1年之间。
360公司创始人、董事长兼CEO周鸿祎:Sora给了中国的互联网和人工智能行业一个响亮的提醒,承认差距并不丢人,知道差距在哪儿,我们迎头赶上。现在国内也不用太悲观,有些技术诀窍,我觉得很快地也都会被探索出来,剩下的需要时间。
国内比较值得关注有三点:第一,人才的高度和密度;第二,算力,做Sora和下一步更大规模的大模型对算力的要求可能又是一个积累,10万块显卡是个基本起点;第三,知识的问题,网上的很多语料并不适合用来做直接的训练,训练大模型需要的是高纯度的知识。
香港大学教授、徐图智能CEO徐东:现在语言大模型公司也在往多模态大模型方向发展,可能也有人认为他们能做Sora。但我觉得这事比语言模型更难,视频生成模型的解空间比语言的解空间还是大不少的。另外先前GPT是有开源的,是基于纯Transformer路线的。这一次OpenAI的技术报告基本没有太多细节,从大的方面来讲,基于diffusion框架,sora采用了transformer来取代之前算法中的UNet结构以逐步实现去除噪声并生成视频,即所谓的diffusion transformer技术路线。简单来讲,这个技术路线本质是diffusion路线而不是语言大模型公司所采用的纯Transformer路线。其实diffusion框架有一套非常严格的数学理论保证,在算力和数据有限的情况下,这肯定是初创公司的首选。和Sora类似技术路线相似的论文很少,我香港大学一个同事罗平教授去年一直在采用diffusion transformer这条技术路线,先是做了一个文生图的论文(中了ICLR 2024,模型已经开源),去年11月又投了一个文生视频的论文到CVPR 2024。这篇投稿CVPR 2024的论文应该是我见到的所有文生视频论文中从技术路线上来讲最接近sora技术路线的工作。
另外,训练sora所采用的数据也没有开源,当然也没有提供任何关于数据收集方面的细节,另外现在也没有太多其它公开的数据集,这和语言大模型这个赛道刚开始的时候非常不一样。所以,现在双方的差距是明显被拉大了。要在几个月之内就能超过Sora,应该不是一件非常容易的事。
北京大学人工智能博士、斯坦福创业导师张有鱼:在ChatGPT 3.5发布之前,国内还是有研究产品以及积累的,GPT2的源码是公开的,GPT3的源码国内个别单位也有。所以综合下来在追赶GPT过程中,国内厂商还是有底气的,所以23年下半年,基本隔几天就会公布宣布在XX地方超越了GPT4。
但这次SORA突然发布后,除了360周鸿祎之外,基本都保持沉默,可能这一次过于突然。SORA出现当天,我就开始和6位影视、动画、互联网、大模型相关领域的专家在视频号直播开始探讨。在过去一周时间每晚一场讨论,大概有近30位嘉宾,但于对于这个问题,总体也是讳莫如深。但是从投资和产业界来看,一些之前这方面赛道的小公司可能会迎来一个被并购的机会。有网友笑话说,现在全村人都盼着Meta赶紧杀进来,只要它一开源,国内就能在应用上跟进。
本站科技:文生图、文生视频等想象空间巨大,对于创业者、尤其是中国创业者,您认为机会在哪些地方?专注什么垂直领域成功的概率相对较大?
香港大学教授、徐图智能CEO徐东:现在很多风投找到我,有人悲观,表示Sora太厉害,我们差距太大。但从另外一个角度讲,从国家战略来说,很多情况下是不可能采用Sora的。另外还有很多的企业,比如有些游戏公司未必愿意采用Sora,所以一定需要一个中国版的sora。
对国家来讲,也可能存在国家安全的问题。如果有人掌握了这个工具,就有可能会产生大量的生成视频,自动区分真实以及合成视频现在还是一个非常困难的任务。另外这些生成视频在价值观和道德观上有可能和我们主流的观点并不一致。如果国内完全不懂OpenAI是怎么进攻的,那我们怎么去防?所以说国家肯定会有政府资源投入做这个事。 而从创业的角度来说,我个人是看好的,也有不少风投也是很看好的,因为中国还是会有一个中国版Sora出来,只是说谁能做出来而已。先前中国可能有200多个GPT模型,但是我估计国内不会有这么多团队来做类似Sora的模型,因为这个赛道门槛特别高且开源资源缺乏,只有有很强技术积累的团队才可能来做类似Sora的模型。
新壹科技CEO雷涛:我认为以下几个层面潜在需求会比较集中。1.本地化内容生成:通用大模型的成熟和标杆性应用的涌现,会进一步激发能快速生成高质量、本地化的内容需求。诸如,为特定地区或文化生成符合其背景和习惯的文本、图像或视频内容。2.垂直化行业应用:经过特别化训练和底层设计的垂直大模型可渗透于各垂直行业,像医疗、教育、金融、融媒体等。新壹视频大模型和旗下的内容辅助创作平台,已经与金融保险、融媒体、医疗机构,有了很深入的合作沟通,甚至是实践案例。3.个性化视频定制: Sora的文本到视频生成能力进一步降低了个性化视频定制门槛。像企业宣传片、教育培训、微短剧,甚至个人娱乐领域,用户都可以根据自身需求,通过文本描述进行视频内容DIY。4.辅助创作的工具化平台:从外来的ChatGpt、Sora,到国内用户接触、熟悉普及,时间和信息度都存在一定门槛,那么提供易于用户使用的工具化平台,通过降低技术门槛,使普通用户也能感受到尖端技术带来的福利,更轻松便捷的进行创作,也是一种定位路径。新壹科技旗下的一帧秒创平台,就致力于此。5.与其他技术结合的延展边界:通用人工智能、AIGC技术的迭代和升级,以Sora的视频生成技术突破为例,这让其与其他技术如增强现实(AR)、虚拟现实(VR)等结合,能创造出更丰富多样的内容形式,投身到影视、大银幕制作中,更加具有想象空间。
360公司创始人、董事长兼CEO周鸿祎:创业要广义地来看。在机会方向上,我提两个:第一,我认为未来会产生很多新的工具,人工智能最典型的属性就是工具,所以工具市场会有巨大的机会。创业者如果可以接入Sora、GPT大模型API,可以利用它的能力,产生素材,创业者要做的是把你的能力和它结合起来。
第二,对很多传统To C领域可能会有重塑一遍的机会。创业者可以走把大模型垂直化、产业化、行业化发展的路,做各种企业大模型、场景大模型。
北京大学人工智能博士,斯坦福创业导师张有鱼:我们回看历史,可以得出几个显而易见的结论:每一次内容创作门槛的降低,都会带来内容更大的爆发。博客时代(千字长文)——微博时代(70字短信)——图文时代(随手拍照)——短视频和直播时代。文字图片电影电视视频,都是为了信息传递、文化传播、娱乐消遣服务,所以也必将带来视频生产的大爆发。
三、Sora影响最大的人群是谁?
本站科技:此前,GPT压力给到了编剧,现在,sora的压力传导给了后期和特效?怎么看未来相关从业者的可替代性?
360公司创始人、董事长兼CEO周鸿祎:今天Sora可能给广告业、电影预告片、短视频行业带来巨大的颠覆。机器能生产一个好视频,但视频的主题、脚本和分镜头策划、台词的配合,都需要人的创意,至少需要人给提示词。我认为,人工智能取代不了人类的想象力和创造力,还有人类的主观意愿。所以,我认为Sora更可能成为后期和特效等相关从业者的创作工具。
南京大学智能科学与技术学院副教授、博士生导师易子立:目前说Sora替代导演编剧还为时尚早。Sora可以产生不错的视频,但能否以更低成本产生符合制作人需求的内容,还是个问号。从目前Sora的缺点来看,还没有到大规模替代摄像和图形学的地步。根据我之前的预测,还需要至少等全球算力水平再提升1~2个数量级,也就是大概率在4~5年之后,甚至更长时间。
美图公司技术副总裁兼美图影像研究院负责人刘洛麒:以史为鉴,新技术的出现并非要取代人类的工作,每一次生产工具的升级带来的是生产力的提升。
Sora、GPT、Mid journey等产品的本质都是生产工具。作为AI辅助工具,更多的是赋能创作者而非替代,包括帮助普通人降低生产门槛,为专业生产者降低生产成本,加速内容生成,提高创意实现的生产效率,帮助减少内容生产者的“工具属性”,释放创意发挥的空间。与此同时,AI也会创造出新的工作和新的可能性。影视和视频产业的灵魂是情感、世界观、文化等等的碰撞与共鸣,高度依赖创新创意、情感投入和人类叙事,这也是AI不可替代的地方。
北京电影学院动画学院教授、影视投资人孙立:Sora一出,ADOBE、迪士尼,奈飞股价马上下跌。视频的生产,特别是复杂特效视频的生产不再是资本和资源集中后的优势项目,不再是稀缺资源。利用sora ,1个高中生设计的出的星球大战场面可能比乔治卢卡斯制作的同类画面更新颖,更吸引人。
本站科技:Sora的出现会冲击哪些教育机构和培训机构?
北京电影学院动画学院教授、影视投资人孙立:教育的权威性受到冲击。今后影视制作从业的专业技能需求要重新定义。静态画面方面已经很明显了,中央美院2023年报考人数断崖式下降了8000人。
本站科技:sora的弱点有哪些?它有哪些不足或者值得担忧的地方?
中国人民大学高瓴人工智能学院教授卢志武:Sora目前的弱点只是暂时的,通过模型优化和采用更大的数据训练肯定可以解决。
哈尔滨工业大学计算学部教授左旺孟:Sora号称是作为世界模拟器的视频生成模型,但实际上仍主要是依靠基于概率统计的相关性建模来学习物理规律,目前还难以模拟所有现实中的物理过程。从长期来看,也许需要突破当前的学习范式,发展新的模型和学习方法。
北京电影学院动画学院教授、影视投资人孙立:sora的开发,完全脱离了我们视野范围。我在此之前没有看到任何行业论文预判到了它的升级路径。当然,它目前很显然代替不了张艺谋和王家卫。它还无法和我们共情,仅仅是完成我们的指令。不过都到这一步了,谁敢给它今后的发展设限?
360公司创始人、董事长兼CEO周鸿祎:从负面来说,如果有了Sora之后,人类消耗大量的算力和能源,我们每个人每天都在疯狂产生视频,你根本就没有时间来回看。它甚至都超过一个宇宙的寿命了,那谁去看呢?所以,我也觉得挺迷茫的。
还有一个问题,诈骗视频。过去诈骗视频叫Deepfake深度伪造,过了几年他们换了一个高大上的名字叫AIGC。今天AIGC做诈骗还只是换脸换身,以后完全不用换脸。所以一定要有相应的监管措施。
四、人类关于AGI的实现时间,缩短了多少?
本站科技:Sora的诞生意味着AGI(通用人工智能)实现可能从十年缩短至一两年?如何看待AGI的发展和sora给AGI演变进程带来的影响?
360公司创始人、董事长兼CEO周鸿祎:Sora的出现,意味着 AGI实现将从10年缩短到一两年。我认为,AGI发展有几个阶段:第一阶段:人工智障,连人类的语言都不理解。第二阶段:是人工智能拐点,有脑子,能跟人的交互能力。GPT已经做的很好,核心就是语言、思想、逻辑层面的交互。第三阶段:就是通用人工智能(AGI)阶段,从识别物体和识别物体之间的逻辑关系(Gemini),进化到能够识别物体跟物体之间互动和交互关系,并且建立对透视的理解(Sora)。进而能够在具身智能、自动驾驶方面取得突破。
所以,Sora正好补上了这一块,就是通过对世界观察后理解一些运行规律,再附到机器人身上,他就已经会有很大的改善。了解这个运行规律,比如太阳东升西落,并不等于就把伽利略公式就做出来了,所以这里面还没有到公式这一步。所以不要拿这个来苛求。
第四阶段:有手有脚,强人工智能时期。AI能够附体在一个车上、一个机器人身上,能够走出去,伸出手去感知这个世界,去感知重力加速度,去感知阻力,去感知抵抗力,如果做到这一点,AI和人类对世界的认知就完全一样了。第五阶段:是有悟性,超级人工智能时期。从现象中总结出物理定律和数学公式,实现对世界的抽象理解。
哈尔滨工业大学计算学部教授左旺孟:数据对AI和AGI的发展仍起着至关重要的作用,Sora可以通过生成数据对AI和AGI起到一定的推动作用,但不会这么显著地缩短AGI的实现时间。
新壹科技CEO雷涛:Sora的诞生肯定是给AGI(通用人工智能)注入强心剂,代表AGI在视频生成领域的突破。不过,AGI的实现是复杂漫长的过程,需要面对很多技术挑战,诸如说跨领域灵活性、常识推理、情感理解等等。将Sora的影响简单归结为缩短AGI实现时间,可能过于乐观。
Sora的问世,更多的意义在于,证明了大型语言模型在视频生成领域的潜力,拓展了AGI的发展路径。
南京大学智能科学与技术学院副教授、博士生导师易子立:多模态基础模型是通往AGI的必经之路,而视觉(特别是视频)和自然语言的统一是多模态基础模型的必经之路。目前的科技进展,只能说让我们离AGI又近了一步,但我们距离AGI的终极目标依然很遥远。要攻克AGI,还有很多问题要解决,包括多模态基础模型、长期记忆、终身学习、自省学习、常识推理等。
北京大学人工智能博士,斯坦福创业导师张有鱼:那一天的起点,还是在于LLM大语言模型,LLM解决了最难的语言理解的问题,是世界知识的压缩。而SORA在此基础上,从视觉角度进一步理解了物理世界,仅仅通过视频现象的学习,就可以理解了物理世界,这一天来得如此迅速,而整个社会还没有完全准备好。
如果说之前所有新的技术或产品出现,普及和应用是有一个比较长的过程。但今天一个大模型的发布,无论是硅谷最前沿的,还是一个远在非洲的偏远地区的人,拿到的东西是一样的,而且还是强大无比的生产力工具,唯一限制你的,只是你的想象力。这是人类历史上从来没有过的。
所以无论是从个人,企业,政策,社会,国家等多个层面都需要同步面对这个变化甚至冲击,这个过程中难免会产生诸多的问题,如这几天发生的卖课的乱相。但这个技术潮流无法避免,那就需要更多的力量共同来面对。这个挑战我们无法失败,也没有人失败得起。
本站科技:文生视频模型从生成视频开始,但绝不会从视频这里结束。在未来,您比较看好哪些相关什么应用和创新尝试?
新壹科技CEO雷涛:比较典型的场景像影视制作与后期处理、虚拟形象与虚拟人【主要用于游戏、社交、广告】领域;教育培训行业【类似虚拟实现、模拟演示】,还有艺术创意设计这方面,文生视频模型可以带来创意灵感。
美图公司技术副总裁兼美图影像研究院负责人刘洛麒:人工智能作为一种基础的科技,随着进一步的深入发展,相信对各个工种,各个行业都会有或深或浅的影响。结合现有业态,我们也比较看好在电商、广告、游戏、动漫、影视等视觉创作场景的率先发力。
本站科技:人工智能从生成文字到图片再到如今的视频,您觉得sora们是终极形态吗?如果用一句话展望人类的人工智能发展事业,您会说什么?
中国人民大学高瓴人工智能学院教授卢志武:Sora最吸引人的地方是对物理世界的模拟,AI可以通过观看视频来自动抽取物理规律,这相当于物理学家的角色,后续的想象空间非常大。
香港大学教授、徐图智能CEO徐东:10年前大家觉得通用人工智能的时代迟早会来,但现在我们应该全体all in人工智能,全人类都应该积极的去拥抱人工智能,因为通用人工智能时代即将到来。当然,监管也要同步跟上。
哈尔滨工业大学计算学部教授左旺孟:GPT和Sora应该还不能算是人工智能的终极形态,一个完整的AI系统还应该具备更好的感知和交互能力。我希望未来的人工智能能够跟人类共存,一方面为人类的衣食住行和生活生存提供便利和保障,另一方面为人类的理解、探索和创造活动提供支持。
松应科技创始人&CEO聂凯旋:今天看到的sora还远不是终极形态,sora模型只是看世界的其中一种角度,他通过视觉观察 + 模仿,利用计算机绘制出感官上连贯且逼真的二维画面,但其并不理解物理规律和逻辑,也没有因果关系。不过OpenAI运用GPT+Sora组合,代表了一种看世界的新方式。
人工智能要落地物理世界并引领产业升级,则需要构建一个理解且基于物理定律、高精度运算的三维仿真模拟器,让其作为AI人工智能与物理世界生产系统融合的载体,例如在交通运输、工业制造、移动机器人、医疗机器人、工程建筑等领域。我们看到目前最接近三维世界模拟器的是全球芯片巨头NVIDIA的Omniverse平台,国内则有松应科技ORCA智能模拟平台也在迎头赶上。
通往全人工智能的道路不止一条,无论是基于认知数据的模型,还是基于物理规律的模型,都是积极探索和推动发展的进化方式,都值得深度投入和广泛实践。
美图公司技术副总裁兼美图影像研究院负责人刘洛麒:Sora不会是最终形态,尽管目前它的效果非常惊艳,但在物理逻辑、叙事风格与视觉风格统一、局部细节、转场协调和连贯性等方面都还有很大的优化空间,整体还是一个渐进性的发展形态,技术快速迭代的背景下,我们也期待一个革命性时刻的到来。
南京大学智能科学与技术学院副教授、博士生导师易子立:我们目前只是踏出了万里长征的第一步,我们距离终极AGI还很遥远。
北京大学人工智能博士,斯坦福创业导师张有鱼:不会是终极,但最重要的两块基石已经形成了,给整个社会创新带来了巨大的突破。一句话:对人类好一点。
(受访者排名不分先后)
本文系本站科技报道,更多新闻资讯和深度解析,关注我们。