☰

MLPerf Training v5.1結果揭曉：NVIDIA Blackwell Ultra橫掃七項測試奪冠、AMD以CDNA 4架構緊追

MLCommons稍早公布了最新一轮MLPerf Training v5.1基准测试结果，不仅是AI运算领域的年度期末考，更是NVIDIA与AMD展示次世代架构实力的竞技场。NVIDIA 凭借Blackwell Ultra架构横扫全场，而AMD则首度以CDNA 4架构的MI350系列参与训练测试，展现紧追在后的竞争力。

NVIDIA：Blackwell Ultra搭配NVFP4精度，效能翻倍

在本次测试中，NVIDIA毫无悬念地在大型语言模型 (LLM)、图像生成等全部七项测试中拿下最快训练速度的成绩，更是唯一在所有项目中都提交结果的平台。

NVIDIA此回派出的「杀手锏」，是其基于Blackwell Ultra GPU架构的GB300 NVL72机架级系统。为了释放极致效能，NVIDIA在MLPerf Training历史上首度采用NVFP4低精度运算。

根据NVIDIA官方公布数据，与上一代Hopper架构相比，Blackwell Ultra在相同GPU数量下有显著性能提升：

•Llama 3.1 405B预训练：效能提升4倍以上。

•Llama 2 70B LoRA微调：效能增加近5倍。

Blackwell Ultra的架构优势，在于具备15 petaflops NVFP4 AI运算能力的全新Tensor Core，以及高达279GB的HBM3e高频宽记忆体。此外，NVIDIA更在Llama 3.1 405B测试中动用超过5000颗Blackwell GPU，创下仅需10分钟完成训练的纪录。

AMD：CDNA 4架构首秀，MI355X较前代提升2.8倍

另一方面，AMD也在此次测试中缴出亮眼成绩单。这是AMD首度使用其Instinct MI350系列GPU (包含MI355X与MI350X) 进行MLPerf训练测试。

AMD Instinct MI355X GPU采用3nm制程与CDNA 4架构，并且搭载288GB HBM3e高频宽记忆体。在效能表现上，AMD强调其进步幅度惊人：

•效能跃进：与前一代MI300X相比，MI355X在训练效能上提升了2.8倍。

•Llama 2 70B LoRA微调：MI355X平台完成时间为10.18分钟，相较于MI300X的27.97分钟大幅缩短。

虽然在绝对速度上，NVIDIA的B200平台以9.85分钟的成绩略胜一筹，但AMD MI355X的10.18分钟已展现出极具竞争力的表现，显示双方差距正在缩小。

生态系与未来布局

本次测试也突显了双方生态系的扩展。其中，NVIDIA拥有华硕、Dell、广达 (云达)、纬颖等15个合作伙伴提交结果。AMD方面也不甘示弱，共有9家合作伙伴 (包含华硕、Dell、技钢等) 提交了基于AMD Instinct硬体的测试结果。

展望未来，AMD在财务分析师大会 (Financial Analyst Day) 上也更新了产品路线图，确认将维持「一年一更」的节奏：预计2026年推出MI400系列，而MI500系列则计划于2027年登场，借此与NVIDIA作更进一步抗衡。

《原文刊登于合作媒体mashdigi，联合新闻网获授权转载。》

MLPerf Training v5.1結果揭曉：NVIDIA Blackwell Ultra橫掃七項測試奪冠、AMD以CDNA 4架構緊追

相关资讯