黄仁勋业绩会万字实录:那么多客户需求GPU,我们的压力太大了
5月23日消息,美国当地时间周三,英伟达公布了该公司截至2024年4月28日的2025财年第一财季财报。报告显示,英伟达第一财季营收260亿美元,同比增长262%,超过分析师平均预期的246.5亿美元;净利润148.1亿美元,同比上升628%;每股收益为5.98美元,超过分析师平均预期的5.59美元。由于营收和利润均超出市场预期,英伟达股价财报后大涨,股价首次超过1000美元大关。
财报发布后,英伟达总裁兼首席执行官黄仁勋(Jensen Huang)和执行副总裁兼首席财务官科莉特·克雷斯(Colette Kress)等高管出席随后召开的财报电话会议,解读财报要点并回答分析师提问。
黄仁勋财报解读
目前整个行业正经历着重大变革。在开始问答环节之前,我想谈谈这场变革的重要性。新的工业革命已经开启。
许多公司和国家正与英伟达合作,将价值数万亿美元的传统数据中心转型为加速计算,并致力于建设新型的数据中心,即人工智能工厂(AI Factories),以生产史无前例的商品——人工智能。
人工智能将为几乎所有行业带来翻天覆地的效率提升,帮助企业在扩大收入的同时,提高成本效益和能源效率。云服务提供商是生成式人工智能的先行者。借助英伟达的先进技术,这些云服务商加速了工作负载处理,节省资金并减少电力消耗。而英伟达Hopper平台所产生的Token,为他们的AI服务带来了收入,而英伟达云实例则吸引了我们庞大开发者生态系统中的租户。
由于生成式人工智能在Hopper平台上的训练和推理需求迅速增长,我们的数据中心业务也在强劲增长。训练的规模持续扩大,因模型学习如何处理多模态内容,如文本、语音、图像、视频和3D,并学习如何进行推理和规划。
我们的推理工作量正在显著增加。随着生成式人工智能的发展,推理现在涉及在巨大规模上快速生成Token,这变得极其复杂。生成式人工智能正在驱动从基础到全栈的计算平台转型,将彻底改变我们与计算机的每一次交互体验。我们正在从今天的信息检索模型转向一个生成答案和技能的计算模型。人工智能将逐渐理解上下文和我们的真实意图,并具备更为强大的知识、推理、规划以及执行任务的能力。
我们正在从根本上改革计算机的工作方式和功能,从通用CPU转向GPU加速计算,从指令驱动软件到理解意图的模型,从简单的信息检索到执行复杂技能。而在工业层面上,我们从传统的软件生产转变为Token生成,即数字智能的制造。
Token生成将持续推动人工智能工厂的长期建设。除了云服务提供商之外,生成式人工智能还扩展到了消费者互联网公司、各类企业、主权人工智能(Sovereign AI)、汽车及医疗保健领域,从而孕育了多个价值数十亿美元的垂直市场。
Blackwell平台已全面启用,为处理万亿参数级别的生成式人工智能奠定了坚实基础。Grace CPU、Blackwell GPU、NVLink、Quantum 和 Spectrum 以及高速互联技术的结合,并辅以我们丰富的软件和合作伙伴生态系统,使我们能为客户提供前所未有的更全面、更完善的人工智能工厂解决方案。
Spectrum-X为我们开辟了一个全新的市场,使我们能将大规模人工智能引入仅限以太网的数据中心。NVIDIA NIM,作为我们的新软件产品,在我们广泛的生态系统合作伙伴网络的支持下,可在从云到现场数据中心,再到RTX AI个人电脑的各种环境中运行企业级优化的生成式人工智能。从Blackwell到Spectrum-X再到NIM,我们已为未来增长的新浪潮做好了准备。
以下为分析师问答环节:
伯恩斯坦分析师斯泰西·拉斯冈(Stacy Rasgon):我想深入了解Blackwell的情况,它目前已经全面投产,这是否意味着产品已经过了样品阶段?如果是这样,这将如何影响发货和交付时间?当Blackwell真正到达客户手中时,对他们来说又意味着什么?
黄仁勋:我们将会开始发货。实际上,我们已经开始了一段时间的生产。但我们的生产发货将从第二季度开始,并在第三季度加速,客户应该可以在第四季度建立起数据中心。
拉斯冈:Blackwell今年是否能够带来收入?
黄仁勋:是的,今年我们将看到Blackwell带来大量收入。
瑞银分析师蒂莫西·阿库里(Timothy Arcuri):我想对比下Blackwell与Hopper在部署方面的差异,特别是考虑到系统特性和对GB的巨大需求。这次部署与Hopper有何不同?我这样问是因为,我们之前从未采用过大规模的液体冷却技术,并且在节点层面及数据中心内存在一些工程挑战。这些复杂性是否会延长过渡期?您如何看待这一过程的进行?
黄仁勋:是的,Blackwell有多种配置。Blackwell是一个平台,不仅仅是一个GPU。这个平台支持风冷、液冷、x86和Grace、InfiniBand、现在还有Spectrum-X和我在GTC上展示的非常大的NVLink领域。因此,对于一些客户来说,他们将在已经安装了Hopper的现有数据中心基础上逐步过渡。他们可以轻松地从H100转换到H200再到B100。因此,Blackwell系统在设计时就考虑到了向后兼容性,在电力和机械方面都进行了充分的考虑。
当然,运行在Hopper上的软件堆栈在Blackwell上也将表现出色。我们也一直在为整个生态系统“注入活水”,让他们为液冷做好准备。我们已经与Blackwell的生态系统中的公司进行了长时间的深入讨论,包括云服务提供商、数据中心、ODM、系统制造商、我们的供应链以及冷却技术供应链和数据中心供应链。他们不会对Blackwell的到来以及我们希望通过Grace和Blackwell 200提供的能力感到惊讶。
美国银行证券分析师维维克·阿雅(Vivek Arya):感谢你回答我的问题,仁勋。我想了解一下,你是如何确保你的产品保持高利用率,并且防止因供应紧张、竞争或其他因素导致的提前采购或囤积行为?您们系统中有哪些机制可以让我们放心,保证收益与非常强劲的出货量增长保持同步?
黄仁勋:这是一个非常重要的观点,我会直接回答你的问题。目前,全球数据中心对GPU的需求达到了惊人的水平。我们每天都在为赶上这种需求而努力奋斗。原因在于,像ChatGPT和GPT-4这类应用正在迈向多模态处理,Gemini、Anthropic以及所有云服务提供商(CSP)正在进行的工作都在消耗掉市场上所有可用的GPU资源。此外,还有大约15000至20000家涉及多媒体、数字角色以及各类设计工具和生产力应用的生成式人工智能初创公司,包括数字生物学和自动驾驶视频训练领域的公司,它们都在积极扩张,对GPU资源的需求日益增加。我们实际上正在与时间赛跑。客户对我们的压力巨大,迫切希望我们尽快交付并部署系统。
此外,我们还面临着来自主权人工智能的挑战,它们旨在利用国家的自然资源数据训练地区模型。这些系统的部署同样承受着巨大的压力。因此,目前的需求非常高,远远超过了我们的供应能力。
从长远来看,我们正在彻底改革计算机的运作方式。这是一场重大的平台转换,虽然它被比作历史上的其他平台变革,但时间将证明,这次转变将比以往任何一次都更为深刻。因为现代计算机不再仅仅由指令驱动,而是转向了理解用户的意图。它不仅能理解我们与之交互的方式,还能把握我们的需求和意图,并具备迭代推理的能力,能够制定并执行解决方案。因此,计算机的每一个方面都在发生变化,从简单的信息检索转变为生成与上下文相关的智能答案。这将彻底改变全球的计算架构,甚至连PC计算平台也将经历一场革命。这一切只是开始,未来我们将在实验室中继续探索,并与全球的初创公司、大型企业和开发者合作,共同推动这场变革,其影响将是非凡的。
摩根士丹利分析师约瑟夫·摩尔(Joseph Moore):我理解你刚才所说的需求有多么强劲。你们的H200和Blackwell都有着巨大的需求。那么,在迁移到Hopper和H100产品时,你预计会有怎样的市场反应?人们是否会等待这些新产品上市,期待它们的出色表现?或者你认为H100本身的需求就足够维持增长?
黄仁勋:我们注意到这个季度对Hopper的需求正在持续增长。我们预计,随着我们现在过渡到H200和Blackwell,供不应求的情况可能会持续一段时间。每个人都渴望尽快上线他们的基础设施。因为这样他们可以尽快节省金钱并赚钱。
高盛分析师托西亚·哈里(Toshiya Hari):我想问一下竞争。我知道你们的许多云客户已经宣布新的或更新现有的内部程序,与你们的合作同步进行。在中长期,你们在多大程度上将他们视为竞争对手?在你看来,他们主要是解决内部工作量,还是他们的作用可能更广泛?
黄仁勋:我们与众不同的几个方面体现在以下几点。首先,英伟达的加速计算架构使客户能够处理其流程中的每一个环节,从未结构化数据的处理准备培训,到结构化数据处理、类似SQL的数据框处理,再到培训和推理。正如我之前提到的,推理已经发生了根本性的变革,现在它转变为生成模式。它不仅仅是简单地识别出猫——这本身就相当困难——而是需要生成猫的每一个像素。因此,生成过程是一种全新的处理架构。这也是TensorRT LLM非常受欢迎的原因之一。我们利用同样的芯片,通过我们的架构使性能提高了三倍。这充分展示了我们架构和软件的深度和强大。因此,从计算机视觉到图像处理,从计算机图形到各种计算形式,你都可以使用英伟达的技术。
正如世界正面临的计算成本和能源通胀,通用计算已经达到了瓶颈,而加速计算确实是向前发展的可持续方式。加速计算是如何节省计算成本,如何节约能源的关键。因此,我们平台的多功能性为客户的数据中心带来了最低的总体拥有成本(TCO)。
其次,我们遍布每一个云平台。因此,对于寻找开发平台的开发者来说,选择英伟达始终是一个绝佳的选择。我们在本地、在云端,无论是任何大小和形状的计算机,我们几乎无处不在。这是我们的第二个优势。
第三个优势与我们构建AI工厂的事实密切相关。人们越来越认识到,AI问题不仅仅是关于芯片的。当然,一切都始于优秀的芯片,我们为我们的AI工厂制造了大量的芯片,但AI更是一个系统问题。事实上,AI现在已经是一个系统问题,不仅仅是一个大型语言模型,而是多个大型语言模型组成的复杂系统共同工作。因此,英伟达构建这种系统,使我们能够优化我们所有的芯片以协同作为一个系统运行,拥有能够作为一个系统操作的软件,并能够在整个系统中进行优化。
从一个简单的数值角度来看,如果你有一个价值50亿美元的基础设施,当你将基础设施的性能提高了两倍(这是我们经常做的),它的价值也增加到了100亿美元。所有这些芯片的成本并不足以支付它们。因此,它的价值是非常巨大的。这就是为什么今天性能至关重要的原因。在这样一个最高性能也意味着最低成本的时代,因为维持所有这些芯片的基础设施成本非常高昂。需要大量资金来建设和运营数据中心,这还包括了人力、电力、房产等所有相关成本。因此,最高的性能也确保了最低的总体拥有成本(TCO)。
TDCowen分析师马特·拉姆齐(Matt Ramsay):我的整个职业生涯都在数据中心行业度过,但我从未见过像英伟达推出新平台的速度这样快,而且你们的产品在性能上的飞跃尤为显著:训练性能提升了5倍,推理性能更是提高了30倍,这无疑是令人瞩目的成就,但同时也带来了一个有趣的挑战:你们的客户所花费数十亿美元购买的前一代产品,与你们的新产品相比,可能在竞争力上显得逊色,且其折旧周期远远短于预期。面对这种情况,谈谈你是如何看的?当你们迁移到Blackwell等新一代产品时,你们将有庞大的安装基础,显然在软件兼容性上没有问题,但大量已安装产品的性能将远远不及新一代产品。我对此非常好奇,也期待听听你在这个过程中观察到的变化。
黄仁勋:非常感谢你的提问,我很高兴能够分享我的观点。我想强调三点。
首先,无论是在基础设施建设初期(5%)还是接近完成(95%),你的感受都会大相径庭。因为目前只完成了5%,你需要尽快建设。当Blackwell产品推出时,将是一个巨大的飞跃。之后,随着我们持续推出新的Blackwell产品,我们正处于每年更新一次的节奏。我们希望客户能清楚地看到我们的发展蓝图,尽管他们的项目才刚开始,但他们必须持续推进。因此,将会有大量新的芯片推出,他们需要不断地构建,并通过提升性能来逐步达到标准。这是明智之举。他们需要立即盈利并节约成本,时间对他们来说至关重要。
让我举一个例子来说明时间的重要性:为什么快速部署数据中心和缩短培训时间如此关键。因为下一家达到技术新高度的公司将会宣布一项突破性的人工智能技术,而其后的公司可能只能宣布略有改进的产品,提升幅度可能仅为0.3%。因此,问题是,你想成为一个屡创突破的公司,还是仅稍微领先一点的公司?这就是为什么在所有技术竞赛中,竞争如此关键。你可以看到多家公司在此领域竞争,拥有技术领先地位至关重要,企业需要相信这一点并愿意在你的平台上进行长期建设,因为他们知道这个平台将变得越来越好。因此,领导地位非常重要,培训时间也极为关键。能够提前三个月完成培训,就意味着可以提前三个月开始项目,这一切都至关重要。
这就是为什么我们现在如此积极地部署Hopper系统,因为下一个技术平台即将到来。你提到的第一点评论非常棒,这正是我们如何能够快速进步和快速发展的原因。我们拥有所有必要的技术堆栈。我们实际上构建了整个数据中心,能够监控、测量并优化一切。我们知道瓶颈在哪里,我们不是在做无的放矢的猜测,我们不仅仅是展示漂亮的幻灯片。我们也确实希望我们的幻灯片看起来不错,但我们提供的是能够大规模运行的系统。我们知道它们能在大规模中如何表现,因为我们是在这里构建它们的。我们所做的一件近乎奇迹的事情是,我们在这里构建了整个AI基础设施,然后我们将其解构并整合到客户的数据中心,无论他们选择哪种方式。但我们知道它将如何运行,我们知道瓶颈在哪里,我们知道我们需要在哪些地方与他们合作优化,我们知道我们需要在哪些方面帮助他们改善基础设施以实现最佳性能。这种对整个数据中心规模的深入了解,是我们今天能够区别于其他竞争对手的根本原因。我们从零开始构建每一个芯片,我们确切地知道整个系统是如何处理的。因此,我们非常清楚它将如何表现,以及如何在每一代产品中充分发挥其潜力。
所以我很感激。这就是我想分享的三点。
EvercoreISI分析师马克·利帕西斯(Mark Lipacis):你曾经提过,通用计算生态系统往往在每个计算时代占据主导地位,因为通过适应不同的工作负载,这些系统能够在计算需求下降时实现更高的利用率。这似乎是你推动建立基于CUDA的通用GPU生态系统,用于加速计算发展的动机所在。现在,考虑到当前推动解决方案需求的主要工作负载正由神经网络训练和推理所驱动,从表面上看,这似乎是有限数量的工作负载。因此,一些人可能会认为这更适合采用定制化的解决方案。然而,问题的关键在于:通用计算框架是否正面临更大的挑战,或者它们是否具备足够的灵活性和发展速度,以在这些特定的工作负载上继续发挥通用框架的历史优势?
黄仁勋:英伟达的加速计算虽具多功能性,但并不可视为通用计算平台。例如,我们并不擅长执行如电子表格这类典型的通用计算任务。操作系统代码的控制循环对于通用计算而言可能尚可,但对于加速计算则可能不尽人意。因此,虽然我称我们的平台为多功能,但这并不意味着它适用于所有场景。我们能够加速众多领域的应用,这些应用虽有深层差异,但更多地体现出共通性:它们均可并行处理,且高度线程化。例如,有5%的代码可能占据了运行时间的99%,这正是加速计算的特性所在。我们平台的多功能性及我们的系统整体设计,使得在过去十年中,无数初创公司依靠我们的技术快速成长。这些公司的架构虽脆弱,但在面对生成式人工智能或融合模型等新兴技术时,我们的系统能够提供稳定支持。尤其是当出现需要进行持续对话和理解上下文的大型语言模型时,Grace的内存功能显得尤为关键。因此,在人工智能的各项进展中,我们强调不仅需要为单一模型设计解决方案,更应提供能广泛服务于整个领域的系统。我们遵循软件的基本原则,认为软件将持续演进,变得更加完善和强大。我们坚信未来几年内,这些模型的规模将扩大百万倍。我们的平台多功能性在此过程中发挥了关键作用,如果过于专一,我们可能只是在制作FPGA或ASIC,但这远非完整的计算解决方案。
Jefferies分析师布莱恩·柯蒂斯(Blayne Curtis):我对你们为中国市场特别推出的H20产品很感兴趣。鉴于当前的供应限制,我很好奇你们如何平衡这款产品的需求与Hopper其他产品的供应。能否详细阐述对下半年的展望,包括对销售和毛利率的可能影响?
黄仁勋:关于你提到的H20以及不同Hopper产品之间的供应分配,我可能没完全听清你的问题。但我想说,我们尊重每一位客户,并尽力为他们提供最好的服务。确实,我们在中国的业务相较于过去有所下降,这主要是由于技术出口限制以及中国市场竞争的加剧所致。但请放心,我们仍会尽最大努力为中国市场的客户提供最好的服务。关于你提到的供应问题,我们的评论也适用于整个市场,特别是H200和Blackwell在年底时的供应情况。确实,这两款产品的需求非常强劲。
Raymond James分析师斯里尼·帕杰里(Srini Pajjuri): 我想更多了解下你刚才提到的GB 200系统。目前看来,市场对这些系统有很大的需求。从历史上看,英伟达已经卖出了大量的HGX和GPU,而系统业务则相对较小。所以我很好奇,为什么现在你预见对系统的需求如此强劲?这是否仅是因为总体拥有成本(TCO)的考量,还是有其他因素,比如架构优势?
黄仁勋:事实上,我们销售GB 200的方式与我们解构产品的方式相同。我们将所有合理的组件分解并将它们集成到计算机制造商中。今年,我们将有100种不同的Blackwell计算机系统配置推向市场,这是前所未有的。Hopper在其高峰时期也只有一半的配置选项,最初的配置比这少得多。而Blackwell则提供了更多样化的选择。因此,您将看到液冷版、风冷版、x86版、Grace版等等。我们的伙伴也在提供这些多样化的系统。没有什么真正改变的。当然,Blackwell平台极大地扩展了我们的产品阵容。CPU的集成和更紧凑的计算密度,液冷将为数据中心在供电方面节省大量成本,并提高能源效率。因此,这是一个更好的解决方案。它更具扩展性,这意味着我们为数据中心提供了更多的组件。在这个过程中,每个人都是赢家。数据中心将获得更高性能的网络,从网络交换机到网络。当然,我们现在有网卡,我们有以太网,这样我们就可以将NVIDIA AI带给只知道如何操作以太网的大规模客户,因为他们拥有这样的生态系统。因此,Blackwell更具扩展性,我们为客户提供了更多的东西。这一代的产品更为丰富。
TruistSecurities分析师威廉·斯特恩(William Stein):尽管市场上已有性能良好的CPU可供数据中心使用,但你们基于Arm架构的Grace CPU提供了一些真正的优势,使得这项技术值得交付给客户,这些优势可能与成本效益、功耗有关?抑或是Grace与Hopper、Grace与Blackwell之间的技术协同效应有关?你能否解释一下,在客户端是否也可能出现类似的动态?尽管市场上已经有很好的解决方案,比如英特尔和AMD都提供了卓越的X86产品,但在新兴的人工智能工作负载方面,英伟达可能有某些独特的优势,这些优势可能是其他公司难以匹敌的?
黄仁勋:你提到了一些非常好的理由。的确,对于许多应用来说,我们与x86合作伙伴的合作关系非常出色,我们一起构建了很多优秀的系统。但是,Grace允许我们做一些当前系统配置无法做到的事情。Grace和Hopper之间的内存系统是相干的,紧密连接的。把它们看作两个独立的芯片似乎不太恰当,因为它们更像是一个超级芯片。两者之间的连接接口的带宽是每秒数TB,这是非常惊人的。Grace使用的是LPDDR内存,这是第一个数据中心级的低功耗内存。因此,我们在每个节点上都节省了大量电力。此外,由于我们现在可以创建整个系统的架构,我们可以创建一个具有非常庞大NV连接域的系统,这对下一代大语言模型的推理至关重要。
因此,你看到GB200有一个72节点的NVLink域,这就像是将72个Blackwell连接成一个巨大的GPU。因此,我们需要Grace和Blackwells紧密结合来实现。因此,有架构上的原因,有软件编程的原因,还有系统层面的原因,这些都是我们构建它们的必要条件。因此,如果我们看到类似的机会,我们会探索它们。正如你在昨天的微软发布会上看到的那样,微软首席执行官萨提亚·纳德拉(Satya Nadella)宣布了下一代PC——Copilot+ PC,它在我们的RTX GPU上运行得非常好,这些GPU正在笔记本电脑上出货。但它也很好地支持了ARM。因此,这为系统创新甚至为PC打开了大门。
Cantor Fitzgerald分析师C.J·缪斯(C.J. Muse):我想这是个比较长远的问题。我知道Blackwell甚至还没有推出产品,但很明显,投资者总是有远见的。在GPU和定制ASIC日益激烈的竞争中,你如何看待英伟达在未来十年中的创新步伐?过去十年,英伟达在CUDA、Varsity、Precision、Grace以及Connectivity等技术的推出令人印象深刻。未来10年,英伟达需要解决哪些挑战?也许更重要的是,你今天愿意与我们分享什么?
黄仁勋:对于未来,我可以自豪地告诉你们,在Blackwell之后,我们还将推出一款全新的芯片。我们处于每年更新一次的节奏,因此您可以期待我们将以极快的速度推出新的网络技术。我们最近推出了面向以太网的Spectrum-X,但我们对以太网的规划远不止于此,它充满了充满激情的潜力。我们有一个强大的合作伙伴生态系统,例如,戴尔宣布将Spectrum-X推向市场。我们的客户和合作伙伴将不断推出基于英伟达AI工厂架构的新产品。对于那些追求极致性能的公司,我们提供了InfiniBand计算结构,它是一个经过多年发展变得越来越优秀的网络解决方案。而作为基础网络的以太网,通过Spectrum-X,我们将使其具备更强的计算能力。
我们全力投入于这三条路径的发展:NVLink计算结构用于单一计算域,InfiniBand计算结构,以及以太网网络计算结构。我们将以惊人的速度推进这三个方向的发展。您很快就会看到新的交换机、新的网卡、新功能以及在这些设备上运行的新软件栈涌现出来。新的CPU、GPU、网络网卡、交换机等一系列芯片即将推出。
而最令人振奋的是,所有这些产品都将支持CUDA,并且都将兼容我们的整个软件堆栈。这意味着,如果您今天投资于我们的软件堆栈,您永远不需要担心它会过时或落后,因为它将不断进化,变得更快、更强大。如果您今天选择采用我们的架构,那么随着它逐步进入更多的云和数据中心,您将能够无缝地继续运行您的业务。
我认为,英伟达带来的创新将不断提升我们的能力,并降低总体拥有成本(TCO)。我们有信心,通过英伟达的架构,我们将能够引领这个新的计算时代,开启这场新的工业革命。我们不再只是生产软件,我们正在大规模制造人工智能Token。(小小)