真的有人能在推理环节替代英伟达吗?
在中文互联网上,英伟达每天都在被颠覆。绝大部分自媒体和短视频达人都讨厌英伟达,包括周鸿祎在内。他们千方百计地指出,某种替代品(不管是不是国产)的性能指标已经超过英伟达A100或H100,后者即将沦为资本市场历史上最大的泡沫云云。尤其是在B站、小红书这样的平台,“英伟达将迅速被替代”可以被视为一致观点,反对这个观点的人将遭到群嘲。
其实,海外互联网同样如此。昨天还有AI行业的朋友给我分享了一份自称“性能大幅超过英伟达”的美国芯片厂商的自我介绍(是当笑话看的)。几个月前,芯片创业公司Groq发布了自称性能大幅超越英伟达的推理芯片,引发了一定的市场关注度。不同之处在于,海外网友稍微讲一点常识,知道英伟达在训练领域的壁垒实在太高、牢不可破,所以他们主要从推理环节入手:可以针对大模型推理开发某种高度特化的“推理专用卡”,在性能或性价比上超越英伟达,而且已经有人做到了。这些观点经常被翻译为中文,不过翻译者经常有意地把其中的海外芯片创业公司的名字偷换成A股上市公司(或某家非上市公司),从而达到不可告人的目的。
遗憾的是,至少在现在,以及可见的未来,英伟达在推理方面的壁垒仍然十分牢固。或许它在推理方面的壁垒不如训练方面那么高,但只要竞争对手攻不破,就没什么区别。对于绝大部分大模型开发商以及云计算厂商而言,AI算力建设只能以英伟达为核心(买不到的情况除外),不论是训练还是推理算力。在展开分析这个问题前,让我们先简明回顾一下训练和推理的区别:
训练,就是指创造和升级AI模型(包括但不限于大语言模型)的过程。训练环节涉及海量的数据,耗时极长,对算力的并发性需求极高,往往要一次动用几千张到上万张规模的显卡集群。专门为训练做过优化的显卡俗称“大卡”,其最典型的例子是英伟达A100、H100和B100。
推理,就是利用现有大模型解决用户需求的过程。我们每向ChatGPT提一次问题,就启动了一次推理流程。单次推理处理的数据规模往往较小,因此对算力硬件的要求不如训练那么高。英伟达专门为推理做过优化的显卡俗称“中卡”,例如A20、L40;一些高端消费级显卡(俗称“小卡”),例如RTX3和4系列,也可以用于推理。
英伟达的竞争对手,从AMD到英特尔,从Groq到华为,每天都在异口同声地陈述同一个观点:推理的门槛没有硬件那么高,英伟达赖以生存的CUDA软件生态以及显卡互联技术在推理端的作用有限,所以在推理端替代英伟达完全可行。事实又是如何?关键要看企业客户,包括OpenAI这样的大模型开发商以及亚马逊、微软这样的云计算平台商怎么看——毕竟是它们的技术团队和采购人员做出了显卡采购的决定,而不是社交媒体网友。如果我们仔细分析一下主要科技企业今年以来的显卡采购决策,就会惊讶地发现,事实与英伟达的竞争对手所鼓吹的完全相反:
AMD和英特尔的“AI加速卡”(其实就是推理卡)卖得都不怎么样。其中,AMD的旗舰产品Instinct MI300的单季度销售额不足10亿美元,2024年全年的目标也仅仅是卖出40亿美元;英特尔的旗舰产品Gaudi 3就更惨了,2024年全年的销售目标不足10亿美元。把这两家的AI硬件销售额加起来,恐怕都只有英伟达“中卡”销量的一个零头。在2024年一季度财报发布会上,苏妈承认AMD的推理卡目前不存在供给瓶颈,客户可以随时提货;隔壁的英伟达几乎所有产品线则都处于紧缺状态。换句话说,大部分客户宁可等上一两个季度,也宁可买英伟达而不是AMD的产品。
与此同时,在硅谷出现了一个新的趋势:尽可能多地采购“大卡”,把推理和训练一起交给“大卡”去做。例如,OpenAI将使用较新的H200承担GPT-4o的推理任务;苹果通过鸿海采购了数万张H100,估计主要将用于推理工作;Meta计划在2024年之内新增35万张H100,其中很大一部分将用于推理;亚马逊采购的首批3万多张GB200“超级芯片”显然将同时用于训练和推理。这充分说明,所谓“英伟达在推理方面的护城河不深”的说法是何等荒谬!如果上述说法是真的,那么除非大厂钱多烧得慌,否则完全没有必要采购单价极高、供应非常紧张的英伟达“大卡”承担推理任务。当然,这些大厂也会采购一点点AMD或英特尔的产品作为补充,每次都会引发后两者的欢呼雀跃,恨不得让全世界都知道。
为什么硅谷大厂要花更多的钱去采购专为训练优化的“大卡”承担推理任务?这既是出于技术考虑,也是出于综合成本考虑。简而言之:
“大卡”的显存更大、显存带宽更高,适合运行参数规模巨大的大模型。目前主流大模型的参数规模均已突破万亿,而消费者使用的一般是“蒸馏”过的、几十亿到几百亿参数的精简版模型。“中卡”“小卡”足以运行这些精简版模型,但大型企业客户可能需要运行万亿规模参数的超级模型,那就非用“大卡”不可了。
“大卡”的爆发性输出能力更高、延迟较低,适合执行高度时效性的推理任务,例如自动驾驶、国防军工、金融交易等场景。最近流行的“超长文本推理”,对显存的要求较高,“大卡”处理起来也更得心应手。
在AI算力中心当中统一使用“大卡”,有助于降低硬件复杂度,实现较高的算力弹性和通用性。像OpenAI这样的公司,一年之中有几个月处于训练期,在此期间可以把自家“大卡”全部用于训练以保证速度,租用外部算力满足推理需求;训练间歇期则可以少租外部算力,让自家“大卡”转而从事推理。
“大卡”,尤其是B100/B200这种新款产品,最先应用了英伟达的最新技术,从而有利于后续升级和再利用。哪怕几年之后技术突飞猛进,旧款“大卡”退下来还可以做别的工作,而旧款“中卡”“小卡”可能就没有价值了。
上述四条原因,前两条是技术上的,后两条则是成本和管理上的。就像我的一位从事AI技术工作多年的朋友所说:“其实是经济性让大家投票选择了英伟达,这就是市场的力量。”由于上面是在英伟达自家的不同产品线之间做类比,我甚至都没有提到CUDA软件生态——过去十八年,全球上百万开发者为CUDA积累了太多的开发工具和代码,AMD的ROCm根本无法与之匹敌,英特尔就更是不值一提了。
现在假设有一种推理卡,不知道为什么竟能实现远高于英伟达的性能(可能是上帝显灵),而且竟能克服缺乏CUDA生态的麻烦(这次上帝得多受累一点),并且纸面价格显著低于英伟达(这一点极难做到),它也不一定能打败英伟达。客户首先要考虑通用性:专门为大语言模型推理“特化”的芯片,大概率无法拿来执行任何其他任务,从而带来了更高的机会成本。英伟达是“通用计算GPU”概念的提出者,“通用”概念就意味着灵活性和弹性。远的不说,最近几年我们就能看到许多鲜活的案例:2021-2022年,为了进一步训练内容推荐算法,以符合欧盟消费者隐私要求,以及支持新推出的Reels短视频功能,Meta(原名Facebook)采购了大量英伟达“大卡”;当然其中一部分也是为“元宇宙”研发准备的。Meta还成为了2022年发布的H100显卡早期最重要的客户之一。ChatGPT横空出世之后,Meta立即将手头的算力资源投入生成式AI研发,迅速成为全球开源大模型领域的第一平台。扎克伯格本人亦承认,生成式AI浪潮来的时机很巧,Meta非常幸运——其实他更应该感谢英伟达显卡的通用性和普适性。
2019年前后,中国的“云游戏”产业处于井喷阶段,资本市场对其有很高预期。包括阿里、腾讯和电信运营商在内的云计算大厂纷纷采购了大批英伟达RTX显卡(初期主要是Turing架构,后来亦有Ampere架构)组建刀片服务器。虽然云游戏在国内没火起来,但是高端RTX显卡具备张量核心(Tensor Core),从而拥有一定的推理能力。在美国芯片法案的阴影之下,国内厂商采购推理卡越来越困难,当年积累的“云游戏卡”扮演了雪中送炭的角色;尽管它们的推理效率肯定比不上L40等“中卡”,但有总比没有好。
(附带说一句,为什么英伟达的消费级显卡也装备了Tensor Core? 因为它对于光线追踪技术的实现扮演着不可或缺的角色,而光线追踪能够大幅提升游戏画面的感染力。显卡处理游戏内部光影效果的方式,与处理大模型数据的方式,在硬件和数学层面是互通的。人类如果没有强大的游戏产业,就很难建设强大的人工智能产业。)
我们不知道生成式AI产业的下一步走向是什么:Transformer架构(现在所有大语言模型的基础)诞生至今才七年多,第一个百亿参数的大模型诞生至今才不到五年。就像许多学者指出的一样,生成式AI有可能并不是实现通用人工智能(AGI)的必由之路。但是无论如何,有一点是确定的:未来的世界需要大量算力,尤其是并行的、以多核GPU为基础的算力。当生成式AI浪潮突然降临之时,许多科技大厂都把自家的英伟达显卡从自动驾驶、推荐算法训练、图形渲染等任务迅速转移到了大模型相关任务;这进一步加深了它们对英伟达的信任和依赖。
此时此刻,全球科技巨头用于扩张算力的资本开支,普遍达到了每年几百亿美元的水平;坊间甚至传闻微软打算在一年之内耗资1000亿美元建设新的数据中心。花了这么多的钱,它们肯定不希望自己买到的算力仅能用于非常狭窄的领域,不管其纸面性能好坏、价格高低。所以那些高度特化的推理卡,注定只能在巨头的算力军备竞赛当中扮演次要角色;AMD能扮演的角色可以更重要一点,但离英伟达这个主角还是差得很远。
就在本文撰写的过程中,我的另一位从事AI行业多年的朋友告诉我:“我们最近开始采购另一家公司的显示芯片了。它的硬件规格是合格的,但是软件适配是大问题,需要踩很多的坑。英伟达的CUDA开发团队应该比硬件设计团队的规模要大得多,它的发布会上几乎全是软件生态工具,例如GPU虚拟化、一键部署。缺少了英伟达的软件生态,我们就要自己雇人去实现这些能力。生态就是成本!没有生态就要产生额外的开发成本。”当然,鉴于国内现在越来越难买到英伟达的数据中心级显卡,厂商只能硬着头皮承担成本;在有选择的情况下,它们几乎不会有动力这样做。
至于五年、十年乃至二十年后呢?那就是另一个问题了。通用计算GPU这个概念诞生至今也只有十八年,NVLink技术也只有十年历史。在长期,一切都是可以改变的,但是一切改变只能来自勤奋耕耘和咬定青山不放松的精神。请记住,2013年,当黄仁勋操着半生不熟的普通话在北京国家会议中心的舞台上说“请给我一个机会介绍英伟达”的时候,他已经到处推销自己的通用计算理念长达七年了;而他还要再等待整整九年,才能看到一切开花结果。当时嘲笑他的人,和现在认为可以轻易替代他的人,很可能是同一批人。