MLPerf Training v5.1結果揭曉:NVIDIA Blackwell Ultra橫掃七項測試奪冠、AMD以CDNA 4架構緊追

MLCommons稍早公布了最新一轮MLPerf Training v5.1基准测试结果,不仅是AI运算领域的年度期末考,更是NVIDIA与AMD展示次世代架构实力的竞技场。NVIDIA 凭借Blackwell Ultra架构横扫全场,而AMD则首度以CDNA 4架构的MI350系列参与训练测试,展现紧追在后的竞争力。

NVIDIA:Blackwell Ultra搭配NVFP4精度,效能翻倍

在本次测试中,NVIDIA毫无悬念地在大型语言模型 (LLM)、图像生成等全部七项测试中拿下最快训练速度的成绩,更是唯一在所有项目中都提交结果的平台。

NVIDIA此回派出的「杀手锏」,是其基于Blackwell Ultra GPU架构的GB300 NVL72机架级系统。为了释放极致效能,NVIDIA在MLPerf Training历史上首度采用NVFP4低精度运算。

根据NVIDIA官方公布数据,与上一代Hopper架构相比,Blackwell Ultra在相同GPU数量下有显著性能提升:

•Llama 3.1 405B预训练:效能提升4倍以上。

•Llama 2 70B LoRA微调:效能增加近5倍。

Blackwell Ultra的架构优势,在于具备15 petaflops NVFP4 AI运算能力的全新Tensor Core,以及高达279GB的HBM3e高频宽记忆体。此外,NVIDIA更在Llama 3.1 405B测试中动用超过5000颗Blackwell GPU,创下仅需10分钟完成训练的纪录。

AMD:CDNA 4架构首秀,MI355X较前代提升2.8倍

另一方面,AMD也在此次测试中缴出亮眼成绩单。这是AMD首度使用其Instinct MI350系列GPU (包含MI355X与MI350X) 进行MLPerf训练测试。

AMD Instinct MI355X GPU采用3nm制程与CDNA 4架构,并且搭载288GB HBM3e高频宽记忆体。在效能表现上,AMD强调其进步幅度惊人:

•效能跃进:与前一代MI300X相比,MI355X在训练效能上提升了2.8倍。

•Llama 2 70B LoRA微调:MI355X平台完成时间为10.18分钟,相较于MI300X的27.97分钟大幅缩短。

虽然在绝对速度上,NVIDIA的B200平台以9.85分钟的成绩略胜一筹,但AMD MI355X的10.18分钟已展现出极具竞争力的表现,显示双方差距正在缩小。

生态系与未来布局

本次测试也突显了双方生态系的扩展。其中,NVIDIA拥有华硕、Dell、广达 (云达)、纬颖等15个合作伙伴提交结果。AMD方面也不甘示弱,共有9家合作伙伴 (包含华硕、Dell、技钢等) 提交了基于AMD Instinct硬体的测试结果。

展望未来,AMD在财务分析师大会 (Financial Analyst Day) 上也更新了产品路线图,确认将维持「一年一更」的节奏:预计2026年推出MI400系列,而MI500系列则计划于2027年登场,借此与NVIDIA作更进一步抗衡。

《原文刊登于合作媒体mashdigi,联合新闻网获授权转载。》