百度沈抖:大模型让「AI普惠」的前景终于被看到

1879年,当爱迪生测试的灯丝终于持久点亮时,他思考的下一个问题是:怎样才能让更多人用上电?

白炽灯的诞生,并没有立即让全人类即刻享受到夜间生活的自由。在那个年代,只有摩根和范德比尔特家族才装得起庞大的家用蒸汽发电机。直到1882年9月,爱迪生在纽约曼哈顿珍珠街铺设了第一张电网,仅用一座发电站,就能给一平方英里内的普通住户提供电能。

无数人见证了这一历史时刻,两位美国记者这样描述道:“昨天晚上,纽约市珍珠街的85户家庭和商店内外出现灯火辉煌的景象,400盏电灯点亮了整条街,改变了街坊居民夜晚的生活,也为人类文明史掀开了新的一页。”

每一项革命性的技术诞生后,人类都需要探寻技术走向“普惠”的方法。1947年晶体管横空出世,但直到集成电路被发明,芯片才逐步推广民用;1969年计算机网络的雏形便已萌芽,但需要等到蒂姆·伯纳斯-李在90年代定义万维网,互联网才真正地走进全世界的每一个角落。

同样,在AGI引领的第四次工业革命里,一个课题摆在行业先驱面前:如何让主流大众更快的用上AI?

早在本轮AI浪潮爆发之前,“AI普惠”便是百度智能云的十六字方针——「深入行业、聚焦场景、云智一体、AI普惠」其中的核心目标。但对于百度集团执行副总裁、百度智能云事业群总裁沈抖来说,这个目标在去年5月他刚接手百度智能云业务时,呈现出来的是一种过于“碎片化”的图景。

百度集团执行副总裁、百度智能云事业群总裁沈抖

这种“碎片化”根源于传统判别式AI的基因——针对每一个问题,都要生成一个能力来解决,通用性较差。这导致AI落地时出现了传统软件行业的固有顽疾——需求不够标准化,项目制大行其道,乙方常常沦为高科技施工队。沈抖回忆道:“那时候AI在不同的场景里面非常碎片化,做起来很累,很难找到能够依靠规模化带动业务的场景。”

而当大模型开启AGI的终局之路后,“AI普惠”终于能看到一个标准化和规模化的前景——大模型的通用能力能够跨场景来解决问题,如同电力一样,发电厂和电网并不需要区分下游居民的需求到底是照明,还是制冷。

通用端带来的这一变化足以令人惊喜,沈抖定位大模型的价值在于把系统与人真正串联起来,当大模型成为应用的底座之后,将从根本上改变开发的范式。大模型的加码,让天平从代码能力驱动、理解程序语言向创意驱动、理解应用需求一侧倾斜,“AI普惠”在应用供给端将极大丰富,人人皆可成为开发者的时代已经到来。

在推开智能革命的大门时,百度携带了强大的先发优势——从算力层的AI芯片昆仑芯,到框架层的飞桨,到模型层的文心大模型,再到应用层的工业、政务等产业应用,百度“全栈”优势明显,因此在「AI普惠」方面,业界需要百度率先趟出一条路来。

即使过去互联网时代下走过的每一步让百度在全链条上都有布局,但面对大模型能力泛化下所展现的全新商业图景,沈抖直言“以一家之力是绝对干不过来的”,在他看来生态的打造至关重要。

一个更繁荣的应用生态会将更多物种包容其中。第一类“物种”便是插件,OpenAI已经打了头阵,如同今天手机厂商与各类APP应用之间相辅相成,大模型企业与插件之间也将呈现强相互依赖与增强的关系。第二类是大量的生态伙伴,“普惠”本身源于更好解决应用问题,从技术到应用的“最后一公里问题”,依赖于生态伙伴协助交付。

沈抖给了很凝练的总结,如果把前者视为是开发者生态的能力聚合,后者则是协助大模型做好面向应用的直接交付,但还有第三类,就是把大模型当成一种能力直接强化客户现有服务。百度要把模型能力送到企业面前,是为了便利企业更好地把自己的服务能力送到客户面前。

在过去半年里,我们调研发现企业对于大模型的需求真实且强烈,“降本”和“提效”的渴望写在每一个希望穿越周期的老板脸上。但对大多数人来说,接触大模型的场景仅限于聊天机器人。如何在企业内部落地几十上百亿参数的大模型,是一件令人兴奋但又令人生畏的事情。

而百度针对这个问题交出的第一张答卷,就是百度智能云千帆大模型平台。

千帆大模型平台顾名思义,是一个提供各类模型和工具的“一站式平台”,其核心目标是帮助企业降低大模型的使用成本,因此千帆平台覆盖了从数据管理、模型训练、评估测试、落地部署等全流程开发环境和工具链,能够最大程度地缩短企业使用大模型的学习曲线。

为了满多样化的需求,考虑到不同模型有场景的适配性,千帆平台不仅支持百度自家的文心大模型,还接入Llama2、ChatGLM、MPT、Falcon等四十多个大模型,是目前支持第三方模型最多的平台。

正如沈抖的观察:“目前开源模型虽然很多,但不是每个模型都值得大家去试用,不然在早期会造成很大的资源浪费。”所以千帆内每一个模型的入库,会综合“模型效果、安全性、可商用”三个角度提前做好筛选。

在试用千帆平台时,我们还可以看到百度智能云为“AI普惠”所进行的诸多努力,比如平台上有多达103款Prompt模板,涵盖对话、编程、电商、翻译等多个场景,可以迅速上手;再比如预置了41个高质量的、有行业特色的数据集,客户在做模型微调的时候,只要点几个按钮就可以完成微调、提高模型效果。

这些努力的确击中了下游企业的痛点,千帆大模型平台自3月27日开启测试以来,月活企业数已近万家,覆盖金融、制造、能源、政务、交通等行业的400多个场景。百度则跟来自众多垂直行业的上百家客户进入深度接触,勾勒出企业的落地路径和需求画像。

在9月5号举办的2023百度云智大会上,无数专家和客户云集北京,沈抖代表百度智能云宣布了千帆大模型平台的2.0全面升级。

在千帆2.0平台上,我们看到百度带来了更多“AI普惠”的工具,比如大幅增强了平台模型对中文的理解能力,全面提升了训练和推理性能,算力服务和安全能力也做了大幅度的提升。在云智大会上,百度智能云更是直接推出了针对数字政府、金融、工业、交通等四个领域的全面解决方案,他们的共同点是都基于大模型进行了重构。

我们在2023云智大会召开期间采访了沈抖,此时正值文心一言刚刚面向全社会用户开放,仅在第一天就足足回答了3342万个问题,“文心一言App”更是登上AppStore免费榜榜首。百度的大模型技术底座,在超预期的C端流量下经受住了第一次“全民考验”。

能顶住这一次流量大考,离不开过去半年在成本端的持续努力,沈抖给出了一个直观的数据,文心大模型的推理速度已经较发布初期提升了 30 多倍,推理成本也实现了大幅下降,这都是百度能够承载得了这么大的用户量的主要原因。现在的百度稍显从容,沈抖还打趣地说,“流量涌入是幸福的‘烦恼’,可以来得更猛烈些”。

当然,对于大模型在B端的落地,沈抖在乐观中也保持谨慎,他在访谈中坦言,很多客户对大模型的能力上限、边界、成本、交付、需求方式都还没有统一认知,在行业早期可能依然需要用项目制的方式来帮客户理解它——百度看起来已经做好了打这种阵地战的准备。

潜在的困难,的确不会削弱宏大进程里的每一份决心。在AGI这片新大陆被发现之后,全球科技海面上都是一副千帆竞渡、百舸争流的景象。因此“千帆”这个名字恰如其分——带领同行者共同抵达彼岸,是每一轮技术革命里的先行者,都必须要承担的历史使命。

站在新的科技树面前,百度也有自己的星辰大海。他们一手握住大模型的技术端,一手是多年to C、to B产品端的开发经验,在这轮应用端开发上一直强调着“AI原生思维”。打造AI原生产品,强调重构而不是接入,比“AI普惠”本身更多了一些技术视角下独有的理想主义。

而提到百度的大模型战略,则是to C、to B两条腿走路。

沈抖认为,对话框式应用一定不是大模型的最终产品形态。面向C端,百度已在积极研究可落地的产品形态和商业模式。基于大模型重构C端产品,百度网盘、百度文库重构后用户使用粘性、会员付费率都有很大提高,文心一言APP、百度搜索,也布局了大模型应用新入口。面向B端,则是通过打造大模型平台,服务好To B市场,“应用上,无论谁的成功都是大模型的成功”。

倒回到二十多年前,沈抖在清华读研究生的方向就是人工智能,与当前的方向“高度一致”。在百度多年,沈抖一直参与和负责核心业务,2022年5月担任百度智能云事业群总裁后,很快就迎来了一次新的浪潮,在百度这艘潮流最前沿的航船上,沈抖在采访中直言自己“很兴奋,也很幸运”。

作为智能云业务的负责人,沈抖的视角往往会更深入一步。从应用层向下深入大模型,一定绕不开更底层关于资源配置的思考,目前算力端已经在从CPU云向GPU云迁移。而不论从何种角度出发,成本优化、算力部署、模式迁移,都会是来自技术与商业的双重挑战。

在千帆竞发的大航海时代,沈抖还有哪些思考?百度智能云还有哪些布局和规划?我们把与沈抖的对话全文整理如下。

大语言模型带来产品端的想象,才刚刚开始

硅基研习社:探讨技术奇点来临总是一个令人兴奋的话题,大模型狂飙30、100、200天的记录,见证了情绪曲线的冲高与回落。当我们看到大众的热情与好奇逐渐回归冷静,文心一言的开放数据又让我们眼前一亮。

这一天对国内大模型厂商或许有不一样的意义,大模型能力继续向前进化,从技术到产品,围绕产品端的竞争号角已然吹响。OpenAI让我们看到了很多可能性,国内大模型在产品形态演进和商业模式摸索上,也一定会带来更多类似移动互联网时代下的惊喜。而这变革的前夜,才刚刚浮露晨曦。

Q:近日外界对大模型的讨论有所降温,关注重心也从好奇转向了务实落地。百度作为国内第一家对外全面开放大模型C端应用的公司,您怎么看待文心一言开放当日的数据情况?是意料之中还是意料之外?

沈抖:当天实际回答量达到了3342万,其实比我们预期要高。数据是我从系统里直接截取的,发到群里后大家原封不动地呈现给了外界,绝对真实。

而且用户规模大、沟通轮数多也是这次的特点。整个过程中大家不是只问一两句话就走了,而是经过了多轮的对话,从这个角度看用户的热情还在。

Q:面对用户大量涌入参与对话,百度在算力端做了什么准备?成本和后台的运维能力怎么样?

沈抖:大模型本身就是资源密集型的技术范式。当天规模虽然大,但得益于我们在推理端做了大幅优化,推理速度相比3月文心一言开启内测提升了30多倍,成本大幅降低。但从训练到推理,技术进步还没有到天花板,成本会继续降低。

其实拥有更多的用户都是“幸福的烦恼”,算力资源是需要长期投入的,我们也有不错的算力储备。

Q:借助这次文心一言开放,百度对C端的广泛触达才真正开始。回到关于产品本身的思考,目前C端接触到大模型相关产品多以对话的形态出现,而产品端作为一切技术的汇集点,您认为大模型面向C端的价值会以什么样的产品形态产生?

沈抖:产品端Robin(注:百度创始人、董事长兼 CEO 李彦宏)一直有个要求,一定要用AI原生思维来重构所有产品,打造AI原生产品。不是接入,而是要把它变成AI原生,至于最后的交互形态是什么,还会不断迭代。

而现在定性大模型的产品形态还尚早,对比移动互联网时期,大语言模型技术更强大,应用的边界范围更宽泛,产品形态还远未到收敛的阶段。

在移动生态刚出现时,可以用SoLoMo(Social、Local、Mobile,利用社交媒体、地理定位服务和移动终端设备来提供更好的用户体验)做清晰地定义,但对于大模型,目前还无法用几个关键词去定义大语言模型产品。

Q:ChatGPT的产品形态和订阅制的收费模式,对于国内的大模型产品设计和商业模式推进是否有借鉴意义?

沈抖:OpenAI是技术驱动的公司,用户体验肯定不是它的强项。目前它的产品形态也只是早期状态,接下来产品迭代速度会非常快。

面向C端商业化的机会,国内会有自己的变现方式,常见的是广告、电商、游戏三大路径,还会演变出新的路径。

打个比方,如果你愿意一个月花两千块钱雇一个助理,那当 AI 能做助理 1/10 的事情,比如帮你制定旅游行程、预定机票和酒店、甚至调动打车和外卖软件等,你会不会愿意花两百块?

当产品真正能创造价值后,用户就愿意为它买单,但不一定是会员付费的形式,也可能是交易佣金或其它方式。今天我们看得见的产品形态主要是对话,但将来会有更多的产品形态,一款面向C端的产品,就是产品形态决定了变现的方式。

Q:支持产品发展的底层技术很关键,外界对于百度底座大模型的发展也非常关心,在技术端您目前关注的重点是什么?

沈抖:首要问题,是生成式AI能力向上还能摸多高,以及我们怎么把它做得更好。虽然文心一言现在的评测结果还不错,但它还远没有到达优秀人类语言理解的上限。如何快速提升这方面能力,肯定是我们第一位思考的问题。

其次是模型到底怎么能够真正用起来、在哪些场景下能够更高效地用起来。还有硬件端,整个模型训练的优化是软硬一体的优化,其中涉及到的技术都很关键,万卡集群的组织、效率、保障,真正底层的工作是大家看不到的,但又极其重要。

千帆大模型平台,让用户把模型真正用起来

硅基研习社:“AI普惠”的唯一目标,是让大模型更好、更便捷地为大众所用,如同使用水与电,成为一种理所当然的习惯。而现在摆在所有互联网大厂与AI企业的第一道门槛,是怎么让用户先用上大模型。

C端、B端、大型客户、中小客户,行业客户的专有需求、业务提炼的通用需求,从客户端到场景端只要你想排列组合,需求的复杂层次完全超乎想象。但这也正是重注大模型企业们所必须面对的问题,如何利用自有大模型与开源大模型去更好服务客户,值得期待各家的排兵布阵策略。

Q:作为潜在用户,以我们内容公司为例,我们也想用大模型来帮助实现文章创作和内容生成,千帆大模型平台会如何帮助这些没有配置程序员的公司来落地大模型应用和降低成本?

沈抖:这是非常好的问题,事实上,这就是我们做千帆平台的原因。

这次大模型在 B 端落地的特点是大公司先行,很多客户都是金融机构、能源机构、教育机构等。它们有一个明显的特点是需要私有化部署,但这样门槛很高,还要自己培养一堆技术人员迭代模型,可能会减慢大模型生效的时间。

反倒像中小公司,大概率不会排斥使用公有云。例如您提到的内容创作需求,如果需要定制,可以在千帆上直接调用API,可以做封装,也可以通过微调形成您的写作风格,几乎零代码打造自己的模型。我们做千帆的目的,就是要降低大模型的部署门槛、推动大模型的广泛应用。

Q:千帆大模型平台引入了四十多个第三方大模型,包括LLaMA、Falcon等,百度引入的目的是什么?

沈抖:在目前或相当长一段时间内,不管是出于模型的场景适配性、还是客户的心理需求,企业都希望能尝试不同的模型。从这个角度来讲,我们也需要提供第三方模型。

目前模型虽然很多,但我不认为每个模型都值得大家去试用,不然在早期会是很大的资源浪费。百度在开源模型筛选时会有自己的原则,要求选择的模型相对比较优秀、易用。

Q:这些三方开源大模型,它们与平台的适配、优化都是百度团队调好的吗?

沈抖:对,模型跟底层的GPU计算框架的适配都是我们的团队去做优化。针对一些海外模型,千帆也会做中文能力增强,然后提供升级版本供大家使用。

Q:千帆大模型平台作为开放平台,目前已支持如LLaMA等第三方大模型的接入,未来会进一步开放吗?是会类似Hugging face那样接入更多的数据集和开源模型,还是会继续经过选择和调优后上架呢?

沈抖:我们希望千帆大模型平台能够帮助大家降低大模型的使用门槛。无论是直接用或微调,在现阶段,我们会提供第三方的模型。千帆目前主要能力是两条路径:

第一条路径是基于“文心一言”进行发展。随着“文心一言”的快速发展,支持大家用好“文心一言”是千帆最主要的职责之一。在大模型发展早期,模型有场景适配性,在不同场景下需要不同的模型来解决问题。因此,用户也需要第三方的模型。现在国内模型数量很多很多,所以百度在支持模型的时候会有筛选原则。

第二条路径是为客户和开发者提供一站式的模型服务。即通过千帆平台选择模型、微调模型、部署模型,然后为客户提供服务,一站式地把模型从挑选到应用的全生命周期完成,这也是千帆要比Hugging face做得更深的地方。

Hugging face确实广度足够,但它本身不是云平台,需要依赖AWS或者是其他云平台去提供算力,计算资源不是它的优势。而且它不是端到端的,模型建设完以后要部署下去,此时如果规模不大的话用处就不大,规模大了推理成本又很关键。

这也是为什么,文心一言自发布以来一直在持续地进化迭代,推理速度达到了原来的30多倍,推理成本也实现了大幅下降。

千帆大模型平台不只是解决选模型的问题,而是要解决把模型真正用起来的问题,包括数据、训练、调优、Prompt工程,以及应用搭建等一系列问题,还要充分考虑到成本和效率。

Hugging face提供各种各样的模型,却不是一个纯粹大模型的平台,而千帆是一个聚焦大模型的平台。在未来一段时间里多模型并存的情况下,用户需要更好的社区来讨论、选择模型,而我们基于希望大家真正用好大模型为出发点,打造了千帆大模型平台。

从IaaS到MaaS,从CPU云到GPU云,大模型将重塑云业务

硅基研习社:为什么“AI普惠”在今天具备了实现的可能性?大模型作为一种新的底层操作系统,让云业务从零散、琐碎的项目状态走向可通用、可规模化,这不仅是给云业务带来了新生,更是让大家看到了走向AGI的曙光,让AI变得更AI。

技术端的突破带来了应用层更多的可能性,毫无疑问,当程序语言、代码能力可以进一步被自然语言所取代时,技术封装进通用的一层越厚,越能支撑人创意的发挥。当更多的个体参与其中,多样化的物种必将塑造更繁荣的AI生态。

Q:正如之前您提到,应用层产品形态会如何演进有很多可能性,但目前看来,不论产品形态如何都需要调用大模型的API,请问未来的应用是不是都要基于大模型来驱动?

沈抖:大模型会成为一个新时代的操作系统,成为应用的基础底座。

以往人和人打交道、人和机器打交道时,使用语言作为沟通方式或指令,以此将系统和人串联起来。以前电脑不懂自然语言,所以需要大家生成一套形式语言,再变成程序语言,通过程序员编写程序代码以实现交互。

如今大语言模型“破解”了自然语言,它就既能理解自然语言,同时还能转化成程序语言。应用开发的范式就将发生根本变化,不再是代码能力驱动,而是人的创意驱动。人对应用需求的理解会变得非常关键。

另外,大模型也有把系统串联起来的能力。像现在插件的出现,也就是独立完成某种能力、等待被调用的组件,大模型可以把插件组合起来完成一个特定的任务。这都会进一步改变开发范式。

Q:这一驱动模式的转变,云计算本身是否会产生巨大的变化?

沈抖:技术发展的脉络是越来越高级。换句话讲,离底层越来越远,越来越不需要关注细节,封装越来越好,有大量的人在背后把这些活给干了。这本身也是云贡献的价值。

早期的CPU云贡献的价值,就是客户不用自己买机器一个一个卡绑,它封装得越来越好、可以在上边直接用。随着大模型时代到来,「AI 加速芯片」GPU 慢慢成为算力中心,算力增长速度远远超过 CPU。这会加速我们从 CPU 云向 GPU 云的切换。

在 GPU 云的时代,最终我们会把云的能力进一步封装,不让底层暴露出来,形成更高级的交互形态,直接对接大模型的 API。今天的云还是给工程师开发的,交互形态还不够彻底,但未来底层的工程师会减少,更多人会往上层走。这是一个大幅的变化。

Q:我们看到云里面的厂商,包括移动、电信,每一家关于AGI的技术储备差距还是比较大的,云的行业格局会不会因为AGI发生变化?聚焦到云业务本身,AGI会为百度智能云发展带来什么惊喜?

沈抖:如果没有大模型的话,百度的云会打得非常吃力。我们一直强调「深入行业、聚焦场景、云智一体、AI普惠」,百度智能云想要做的就是把AI放到整个to B的服务中,让它成为一个增长点。

过去传统的人工智能非常碎片化,所谓判别式AI,是针对一个问题生成一个能力,通用性很差。由于无法规模化,所以都是项目制,毛利非常低。这次生成式AI出来以后,我们看到它的通用性非常好,一下子可以解决很多问题。

而且在应用层往下基本都是统一的,哪怕需要微调、需要插件,都是标准化的动作。这跟之前非常碎片化的AI应用完全不一样。这本身就是云业务的巨大变化,所谓的IaaS变成了MaaS。

Q:在这个时代,大模型所对应如此大的泛化能力要落到商业中,恐怕百度自己也是干不过来的,百度怎么看待自己在云整个生态中的位置,以及如何理解生态关联的利益机制?

沈抖:以百度一家之力是绝对干不过来的。不是恐怕干不过来,是绝对干不过来。

首先,插件一定会是非常繁荣的生态,它和大模型之间是相辅相成的。插件要从大模型中获取流量,大模型又需要插件能力的支持,就像今天假设手机上没有微信、抖音 ,用户可能都不用它了。

其次,在面向终端客户的应用上,无论是私有云部署、还是通过千帆这样的平台级方案,最终一定需要生态伙伴完成最后一公里交付的问题,比如金蝶、用友、软通动力等。它们有特别熟悉的客户和业务流程,最终需求都会被它集成。

总结一下,一是开发生态的能力聚合、二是帮大模型做交付的合作伙伴、三是用大模型强化自身服务的客户,这都是生态。

Q:如果大模型能打通所有插件解决问题,这是不是变相实现了互联互通?

沈抖:其实依然没有。实际上,这些 APP 现在也都存在于同一个手机上、同一个应用程序里,它照样没有实现互联互通。将来在大模型基座上,美团接进来、滴滴接进来,但它们还是没有互通的。

互联互通应该指的是数据打通,你的数据我可以访问、我的数据你可以访问。但在大模型底座下,我们只是愿意跟这个中枢对话,但我们插件彼此之间并没有对话。

Q:这种不互联互通的情况,会不会导致开发者不能流畅地实现跨资源调度?这会是中国大模型开发生态的缺陷吗?

沈抖:我觉得主要的原因是没放开、流量规模没起来。比如文心一言一下子有了 3000 多万的流量,开发者一算可能 1% 是自己的,那也有 30 万的访问了,他就会决定来干。

Q:智能云业务这段时间一定也接触了很多B端客户,目前在客户端布局上有遇到什么问题吗?

沈抖:大模型在早期有很大的不确定性,今天,很多客户对大模型的能力上限、边界、成本、交付、需求方式都还没有统一认知。短时间内,我们还不能保证客户都到公有云上来,肯定还是先通过项目制的方式去做。

但即使是这样的项目制,也跟以前的项目制不一样。比如我给你私有化部署了模型,它更像是 Windows 或者是 office,先是 95 版,接着是 97 版,又来了 2000 版,你得不断的升级。看似我给你一个光盘装到家里了,实际上你得不断地订阅。这跟原来搭建的也不一样。

Q:未来对百度智能云的发展增速有什么样的预期?

沈抖:百度智能云现在就接近两百亿的盘子,还相对比较小。在大模型的加持下,我们的客户需求变得很旺盛,现在都忙不过来。不过要想真正让用户用起来、做好交付,还需要一个过程。

国内大语言模型,未来一年内会加速收敛

硅基研习社:在AGI的“宇宙大爆炸”节点,在大模型的产品形态演变前夜,在国内大模型竞争的焦灼战时点,一个由远及近的视角也让我们的思考回归现实。

国内大模型入局者众多,光大模型的名字可能就已过百。但一切美好展望都必须有落地检验的一刻,行业还是通用、开源还是闭源,交卷的铃声已经越来越近了。

Q:现在大模型层出不穷,您怎么看大模型接下来的竞争格局?

沈抖:今天市面上有非常多模型,但我认为它们很多都会迅速消失。

现在很多模型之所以还存在,是因为很多人还不知道它的好坏。反正谁也试不了,谁也用不了,一测排名还挺靠前。但随着模型的放开,优劣更容易评判了。今天这些做大模型的,你给他三千万个问题输进去试试,估计一大半都得干趴下。

这会导致流量的逐步集中,头部模型更容易形成规模效应,从而进一步分摊模型研发的成本,差距会进一步拉大。

Q:关联到对开源的讨论,开源一定程度上摊薄了企业部署大模型的成本,您对开源技术未来的发展怎么看?

沈抖:如果不能很好地承担起大模型成本,那么(开源)是无源之水、无根之木,终归有一天会出问题。

大模型跟传统的开源软件不同,传统的开源软件大部分情况下,一个人参与开源,其投入是他自己的时间成本,开发者写代码升级功能,就可以很快check in,提高开源软件能力。但在大模型来看,LLaMA开源发布后,国内无论多少人用LLaMA,他们开发的内容始终无法check in回去,数据、算力、能力放不回去。

因此,开源难度很大。如今很多大模型的开源玩法与传统开源有一点相似的地方,用开源来吸引用户的注意力,用户可以在上面试用。但综合来看,大模型生态的繁荣应该以应用和原生AI应用作为支撑。

Q:关于开源有没有可能出现类似于Red Hat(开源解决方案供应商,后被IBM收购)与IBM那种关系?互联网企业巨头有算力、研发的能力,但还有资金实力雄厚的企业其实也不甘心,他们就像传统的IBM,可能会跟LLaMA结合起来去做,这样就有资金在背后支持,同时行业也有数据和商业模式。

沈抖:不排除这种可能性,开源肯定是会长期存在。大模型热度高,国内从大型企业、中小企业、初创企业都愿意为之进行投入。

大模型很贵,但对于大企业来讲并不是无法克服的问题。一些企业自身的应用场景很多,在这阶段自研大模型的私有化部署需求存在,不论效果的好坏,至少不用依赖外部。现在的大模型可以做到60分来解决一大部分问题,难点在于是否能做到90分、95分。

随着大模型下一步的发展,对大语言模型感兴趣的人会跨很多行业,从人工智能、计算机到心理学等等,这是非常受关注的领域。我认为开源不会成为非常完整闭环的商业模式,大概率不会是主流,但不妨碍开源会长期存在。

全文完,感谢您的阅读。

编辑:戴老板

视觉设计:疏睿

责任编辑:陈畅