“AI春晚”智源大会首日:最重要的公司们谈论最关键的AI话题

一年一度的中国“AI春晚”智源大会于昨日启幕,成为本周最受关注的AI盛事。

大会首日,多位大模型大佬亮相。包括Sora团队负责人Aditya Ramesh与DiT作者谢赛宁,零一万物李开复与清华大学智能产业研究院的院长张亚勤炉边对话,百川智能 CEO 王小川、智谱 AI CEO 张鹏、月之暗面 CEO 杨植麟、面壁智能 CEO 李大海等关键人物就目前AI界最关键的问题开启了一场大型探讨会。

【以下为华尔街见闻整理的要点】

关于Scaling Law:一段时间内仍然有效

李开复:应该用压缩的理念去评估。大模型的智慧来自于接近无损的压缩,这点非常重要。上世代的人工智能从业者很难想到今天会把压缩和智能连接在一起。因为Scaling Law过程中不能盲目堆更多的GPU,所以需要有一个方法评估我们有没有越做越好或者哪个方法做得更好。零一万物内部有严谨的方法论,用压缩的理念去评估,让以往漫无目的“炼丹”训模过程变得更系统也更有科学和数学根据。

张亚勤:5年内仍是主要方向。规模定律的实现,主要得益于对海量数据的利用以及算力的显著提升。再加上现在的Diffusion和Transformer架构能够高效地利用算力和数据,使得“飞轮效应”得以正循环。尽管有人质疑Scaling Law在2到3年后是否仍然有效,但我个人认为至少在未来5年里,它仍将是产业发展的主要方向。

杨植麟:scaling law没有本质问题。未来3到4个数量级的提升是非常确定的,关键是如何高效地扩大规模,以及应该扩展什么。如果只是继续使用当前的方法和数据,可能无法解决推理能力等问题。所以我们需要重新定义scaling law。只要有更多的算力和数据,模型参数变大,智能会持续增加,但这不一定局限于当前的方法。比如,模型可以有不同的模态、数据和loss function。所以他认为scaling law会持续演进,只是扩展的方法会发生变化。

王小川:scaling law目前没有看到边界,它会持续发挥作用。比如,Elon Musk计划购买30万片B200芯片,这表明美国在这方面的投入和认真程度远高于中国。因此,我们在scaling law之外还需要寻找新的范式转化,不仅是简单的预测token和压缩模式。只有走出这样的体系,才能有机会走向AGI,并与最前沿的技术较量。

张鹏:目前为止,人类认识的所有规律都有可能被推翻。只是看它的有效期有多长。到目前为止,我们还没有看到scaling law失效的预兆,所以在未来相当一段时间内,它仍然会有效。

李大海:扩展法则是一种经验公式,是行业对大模型这个复杂系统的观察和总结。随着实验的增多,我们对模型训练过程的认知越来越清晰,细节也会越来越多。训练方法本身对扩展法则的影响也很显著。一旦我们固定了参数规模,数据质量和训练方法的重要性就会显现出来。

关于AGI的定义和标准

李开复:AGI的定义是因人而异的。如果把AGI定义为能做人所能做的一切事情,那么我今天没有办法定义,因为它还有太多未知的东西还没有被解。但是这种定义只把人当作金标准,似乎就是问车什么时候能跟人跑的一样快,但是车在很多场景已经比人跑得快很多了,只是有些场景没法胜任。我个人会说:只要Scaling Law继续,只要AI一年比一年更聪明,它会多做比如5倍的事情,IQ会提升20个点。

在虚拟世界里,Agent还是非常重要的,因为人的Intelligence不只是回答问题,是要知道“怎么把事情做出来”。而且如果是谈创造商业价值,Agent帮你把东西买了,帮你把事情解决了,这个是有很大的商业价值,也是贴近AGI的重要一步。

张亚勤:我刚才讲的20年实现AGI,不包括拥有意识或情感。我对AGI的定义有三点,第一是要有巨大的能力,要能在大部分的任务要比人类强,而不是所有任务均超越人类。第二,它是必须要是通用的,过去每个任务都要用不同的模型,但是AGI是要有一个通用的大底座,当然可以有小的垂直模型,但它本身具有通用性。第三是不断升级、学习、进化,就像人类一样。我不认为现在的Scaling Law,或者我们现在做的研究会让AI产生意识,并且我也不认为我们应该从事这方面的研究。

杨植麟:首先,AGI的定义是重要的,但并不一定现在需要精确的、有量化的定义,它可能是一个定性的、感性的东西,它最重要的作用是能让这个社会或者所有人能够对接下来要发生什么事情有一个准备。因为也许这个技术节奏非常快,我们如果能够知道AGI是什么样的,如果能够定义,可以更好的准备这件事情,不管是每个人职业,还是接下来这个行业怎么发展,首先这个是重要的。

第二个,也一定程度上在短期内需要一些量化,因为如果没有完全量化,没有办法衡量AGI开发进度是什么样的,所以短期来说这个是很难的问题,也是很大的挑战。

王小川:AGI的定义,在全球里很难有完整的共识。 之前我们谈AGI,一种理解是把它当成工具来看,我认为这次AGI的第一个变化是它开始有思考能力、学习能力、沟通能力、共情能力,甚至多模态图片处理能力。从它的学习范式要求里,我反而觉得我们就是像在看人一样看它的,一种做法是跟人差异化看。

李大海:我会尝试从经济学的角度来定义AGI。从经济学的角度讲,如果我们去执行任何一个任务,边际成本都为零,这就是我们理想中的AGI。回到我刚才说的,为什么我认为大模型能够走得最远,就是我相信大模型能够把边际成本一直往下降,可能会逼近于零。就像植麟刚才讲的,很多时候需要我们在各行各业的数据产生一个飞轮,逐步让模型持续训练、持续学习,让整体的成本降下去。

张鹏:在我们看AGI这件事,要说它有一个很严格定义的定义,还是另外的什么东西,其实我更愿意相信它是我们的一种信念,是一个符号,它的内涵外延是在不断变化的。刚才提到的早期定义AI的时候,怎么来检测系统是否是AI系统,图灵测试。现在大家已经觉得这个过时了,就是因为随着我们对技术的不断演进,对事情的认知越来越多、越来越深,本质在同样的三个字母所代表的含义是不断在变化,是个动态的刚才。刚才杨植麟也讲,它是一个balance的事情,如果你能把一个事情说得非常量化、非常清晰,内涵是什么,外延是什么,这件事情也就那样了,估计天花板在哪儿大家都能看得到了。现在的问题就在于,没有人能够说清楚。反过来讲是一个好事,这个事情还有很多未知空间等待我们探索。

AGI对于我们来说,可以把它定义成我们的目标。我们一直相信,当前我们的目标是以人为参照,让机器像人一样思考。这是我们的愿景。当然,机器的能力远不止人的水平,我们期待它可以出现超越人的能力,所以AGI里边我们会提到有super intelligence。下一步它是否能产生超过人的水平,我们会不断更新AGI的内涵和外延。

关于大模型价格战:对行业很好

杨植麟:如果我们把时间线拉足够长的话,最终还是会回归价值本身。我自己有三个判断。第一,在某个时间点之后应该可以显著超过训练的算力。我觉得这个标志价值开始得到释放,用来训练的成本是可以很大程度上被覆盖。第二,如果从C端的角度来说,推理成本可能会显著低于获客成本,所以从商业本质上来讲,可能不会跟之前的各种商业模式有非常本质的区别。我觉得这两个是很重要的。第三,AI本身做的事情,可能会在某个时间点超过人做的事情。这个时候,它就可能会产生新的商业模式,它可能不是像今天说的在B端用API做价格战,可能是一个普惠的AI,同时根据它产生的价值从这里面去分成产生的商业模式。

这三个点,可能会是改变商业模式本身或者ROI这个问题很重要的方式。

王小川:我先说结论,今天的价格战对中国发展大模型是非常特别的事。我是积极看待这个事情。

首先,好不好,得看对单个公司还是对一个群体整个市场。因为价格战通常是个市场行为,是个竞争的导向,至少带来两个好的后果:第一个,更多公司、更多人用上大模型了,很多企业之前是不懂这个的,很多公司开始免费用POC,使得大模型在中国有个迅速的普及。不管是个人还是企业就入场了,这对市场是第一个好处。第二个,之前还有很多浪费,因为大家恐慌的时候不知道大模型为何物。我观察到,很多企业但凡有点技术能力都要自己训点大模型,甚至来找我们怎么联合训练。明明它该是大模型的用户、消费者、大模型的使用方,但都想转型成为大模型的供给方。我到这个行业做大模型,一个企业变成所谓的行业。这种情况下,带来很多人才、资金和社会的浪费。有了价格战之后,很多企业开始清醒了,我干嘛非得做,我到底在干嘛,我的竞争优势在什么地方,它就退回来成为大模型的用户,这个浪费也会减少很多。既能带来启蒙,也能带来对社会资源减少消耗。更多的企业在里面能够有自己的定位,把自己做好。我们不需要一千、一万个大模型。在没有价格战的时候,中国可能真的是上百、上千个大模型在进行,市场的分层就能做好,每家都能受益,竞争力就能起来。

张鹏: 我们一直秉持的概念就是ROI,给用户带来最大的收益价值,用我们的技术、用我们的创新降低使用成本,就是为了让技术能够更多的普及,让更多人能够享受这个收益。我们当时推出的,在很长一段时间,我们的价格都是行业内极低的。因为我们的技术确实能做到那一步,能把中间的成本空间释放出来当作大家的收益,帮助大家把ROI算出一个大于一的数字。

这件事情对整体是有好处的,但是也要注意,不要过多地关注这件事情,过多的宣扬这件事情。商业上,你去牺牲企业短期的成本,亏本做买卖不是正常的商业逻辑,只能持续很短的时间,真正还是要回归最终的用户价值、生产力价值。

李大海:会继续有价格战,但也需要有利润。当前所谓的价格战,多多少少有一些营销的成分在,但是我相信未来一定会比现在还要比,并且大家都有利润,这才是健康的方式,并且才真的能让千行百业的应用往下落地。

关于AI落地路径:To B更快

张亚勤:具身智能To B可能会比To C更快落地

在应用和服务层面,先面向消费者(To C)再面向企业(To B)。To B的周期相对较长,而To C的应用产品则可以迅速推出,这与过去的PC互联网和移动互联网的发展路径基本一致。在基础设施层,目前真正盈利的主要集中在To B领域,特别是在芯片、硬件、服务器等。像英伟达、AMD等芯片制造商,以及服务器、HBM存储、InfiniBand和NVLink等相关技术的提供商,他们目前是盈利最多的。

关于AI路径,我在过去十年中一直强调三个关键领域:首先是信息智能,其次是物理智能(现在流行的术语是具身智能),最后是生物智能。在具身智能阶段,To B的应用可能会比To C更快落地。然而,在生物智能阶段,情况可能相反,To C的应用可能会先于To B出现。尽管每个领域的具体情况可能有所不同,但总体来看,无论是To C还是To B,都将存在开源模型、商业闭源模型、基础大模型,以及针对垂直行业模型和边缘模型。

李开复:中国To C 短期更有机会,具身智能路途遥远

简单来说,在中国To C 短期更有机会,国外两者都有机会。To C方面,就像移动互联网、PC时代里,一个新技术、新平台带来新应用,大模型同样如此,这是巨大的机会,但是这些应用的出现一定是按部就班的。

零一万物坚决做To C,不做赔钱的To B,而是做能赚钱的To B。所以零一万物在To B方面精挑细选,找那种公司上下都愿意拥抱新概念的公司,也为它们设计了 RAG 知识检索、专有云、微调等方案,在国内国外都有尝试。

无论To C还是To B,API都很重要,最近国内很多模型降价了,零一万物也推出了接入国际SOTA成绩Yi-Large大模型的API,也希望有机会可以跟各位合作。这个API背后的模型能力接近GPT-4o,但是价格是GPT-4的四分之一,我相信这可以帮助更多公司或者创业者达到所谓的TC-PMF。

大模型是非常适合虚拟世界的,在金融公司的后台、客服等等场景,大模型很快就可以落地产生价值。如果你的需求是软件,直接对接大模型就好了。一旦大模型接入物理世界,就需要面临各种问题,有安全问题、机器问题、机械问题、故障问题等等,难度会大很多倍。

从创业者的角度来说,虽然现在具身智能一时比较热,有一些创业者涌入了,但是对于大部分创业者来说,如果希望短期落地产生价值、能赚钱,肯定还是做虚拟世界要远远容易很多。具身智能是重要的,它可以很好地结合大模型多模态能力,而且一旦具身后就可以产生数据,形成数据飞轮闭环,有很大的想象空间。但是短期要做好,难度很大。

具身智能肯定要走很漫长的道路,而且对于人形机器人我有一些特别的看法。绝大多数应用场景并不需要人形机器人,炒菜机器人应该长得像锅,吸尘器也长得并不像人,没有必要。像是波士顿动力那种很酷的、跳来跳去的机器人,真的会有很多应用场景吗?绝大多数场景几个轮子不是更容易移动吗?很多科学家和创业者都是从小热爱科技,希望能复制一个人,这无可厚非。但是如果你很简单地问VC,VC给出的恐怕是更务实更理性的判断。

关于开源:带来正收益

李大海:开源力量很强大,这里面是多层次的,不光有做原创工作的人,还有很参与者在里面贡献需求、贡献反馈,这也是开源生态重要组成部分。让我们觉得持续做开源贡献能够给公司带来正向收益。

王小川:开源有需求,也会形成很好的影响力,同时,并不会影响竞争力。因为在模型生态里,可能今天是最好的,明天就是一个不够好的模型了,所以我们从商业竞争里也没什么大的损失。因此,这是一件既有贡献,又没有降低我们竞争力的事情,我们就毅然决然做了这样一个决定,符合市场预期,也给公司带来了声誉,这个事情是做得蛮成功、挺对的一件事情。今天有各种公司在里面做各种各样的开源,使得中国的生态在追赶美国、在保护知识产权里共同做这个贡献,我也希望这个生态能够大家越做越好。

【以下为李开复对话张亚勤实录】

【以下为月之暗面、百川智能、智谱AI、面壁智能四家大模型独角兽会议实录】