☰

赛道Hyper | AMD苏姿丰：敢笑业界无男儿！

作者：周源/华尔街见闻

如果说中国的三国时代，本质上是一堆亲戚的内战，那么当今的AI芯片公司，AMD最高领导人苏姿丰与英伟达的皮衣教主黄仁勋，也很有些亲戚干仗的意味：武器是苏姿丰带来的Ryzen（锐龙）9000系列CPU、AI PC芯片“锐龙AI 300系列”、数据中心芯片和GPU。

在英伟达CEO黄仁勋于6月2日的COMPUTEX 2024技术大会发表AI主题相关的演讲、并公布GPU和互连路线图不到15个小时，AMD CEO苏姿丰（Lisa Su）于6月3日在同一场合更新了AMD公司的AI加速卡Instinct GPU系列路线图。

苏姿丰用一大批即期和中远期产品展现了AMD在AI领域的雄心和对未来技术发展的承诺：今年四季度，AMD会推出全新AI加速芯片Instinct MI325X，2025年是MI350，2026年推出MI400。

简要而言，作为现有MI300系列的升级版，Instinct MI325X AI加速卡采用CDNA 3架构。这款加速卡将配备高达288GB的HBM3E内存和6TB/s的内存带宽，提供1.3PFLOPs的FP16和2.6PFLOPs的FP8计算性能，能够处理高达1万亿参数的服务器。

苏姿丰表示，MI325X的AI性能提升幅度为AMD史上最大，相较竞品英伟达H200将有1.3倍以上的提升，故而更具性价比优势。

根据AMD Instinct GPU系列路线图，计划在2025年推出的MI350系列，将基于下一代CDNA 4架构，并与OAM（Optimized Accelerated Matrix）兼容。MI350系列将基于3nm工艺技术，提供与MI325X 一样的高达288GB的HBM3E内存，支持FP4/FP6数据类型。

MI400系列，预计在2026年推出，基于全新CDNA Next架构。性能方面，CDNA 3架构预计将比CDNA 2提高8倍，而CDNA 4架构预计将比CDNA 3提供大约35倍的AI推理性能提升。AMD没有披露CDNA Next架构的性能对比参数。

最强AI PC芯片：强在哪里

与上述“中远期”产品相比，AMD也推出“即时”AI加速卡——代号为“Strix Point”的第三代AI PC芯片“锐龙AI 300系列”和AMD “Ryzen 9000系列”桌面处理器。

其中“锐龙AI 300系列”性能之强悍，让苏姿丰拥有傲视群雄的底气：NPU算力高达50TOPS，超过高通骁龙X Elite的45TOPS和英特尔Lunar Lake的40-45TOPS。正所谓：四十万人齐卸甲，更无一个是男儿。不过这三个公司的CPU算力都达到或超越了微软AI PC对NPU的算力要求（40TOPS+）。

AMD锐龙AI 300系列，最初的版本是在2023年推出的锐龙7040系列（代号Pheonix）。这是全球首款集成独立NPU AI引擎的x86处理器，基于当时全新设计的XDNA架构，算力约10TOPS，综合CPU和GPU后，整体算力约为33TOPS，一举奠定AI PC新品类的算力起点。

同年底，也就是2023年底，AMD推出锐龙7040系列的迭代版——代号为“Hawk Point”的锐龙8040系列，NPU算力提升60%至16TOPS，整体算力也提升到了39TOPS。

这次推出的锐龙AI300系列，为AMD第三代AI芯片：采用全新的Zen5 PU架构，GPU内核升级为RDNA3.5架构，NPU更新为XDNA2架构，号称是“面向下代AI PC/Copilot+ PC的世界一流处理器”。

目前，AI PC作为一种新品类，无论是上游的芯片，还是下游的终端，切口都从高端产品开始。

根据苏姿丰披露的信息，锐龙AI300系列首发两款型号——锐龙AI 9 HX 370和锐龙AI 9 HX 365，全都定位于高端市场。其中，前者是高端中的高端，属于顶级旗舰。

锐龙AI 9 HX 370的CPU主频高达5.1GHz，为12核心24线程，相比锐龙8040系列，其CPU核心数量增加至少30%，这是多年来首次；二级缓存总容量增至12MB（1MB/核），三级缓存增至前所未有的24MB，此前最高为16MB。

GPU部分，锐龙AI 9 HX 370升级了相应的技术架构，CU单元数量从12个增至16个，命名为“Radeon 890M”；NPU算力提升至50TOPS，与锐龙8040系列的NPU算力16TOPS相比，增加3倍多。

锐龙AI 9 365除了主频是5.0GHz，10核20线程，二级缓存10MB，其他参数与锐龙AI 9 HX 370一致。

XDNA2：首发BF16浮点精度格式

锐龙AI300系列的NPU架构采用的是“面向下代AI PC/Copilot+ PC”的XDNA2架构。

据苏姿丰现场披露的技术结构图，与初代XDNA架构相比，XDNA2架构的结构基本不变，但规模扩大：前者的AI计算引擎模块叫做“AIE Tile”，数量是20个；到了新一代架构，名称变成“AI Tile”，数量增加至32个。本地内存模块，从初代的5个增加到8个。

此外，用于互连的交叉总线也从普通的Data Fabric，升级为Zen/RDNA家族的Infinity Fabric，带来了更大的传输带宽和更高的数据传输效率。

据AMD官方给出的数据：XDNA2 NPU算力提升多达5倍（Llama 2 70亿参数大模型的响应速度，从启动到获得第一个token），多任务并行能力翻番，能效也提升了最多两倍。

XDNA2架构还有个技术亮点：引入全新Block FP16（也称BFloat16或BF16）浮点精度格式，这在NPU上是首次。此前，BF16格式一般在CPU和GPU上应用。

从性能上看，FP8浮点格式性能强，但精度不足；FP16浮点格式则相反，精度高但性能略逊。现在，BF16格式兼具两者之优，符合目前大多数AI应用的16位精度要求，无需再做额外转换。

目前，锐龙AI300系列的综合算力高达50TOPS，超过高通骁龙X Elite NPU和Intel即将发布的下一代酷睿Ultra Lunar Lake NPU综合45TOPS算力等级。就参数而言，AMD的锐龙AI300系列NPU算力为当前业界最强。

据AMD发布的锐龙AI300系列技术参数，在视频编辑、多任务处理和3D图形计算性能方面，锐龙AI 9 HX 370比高通骁龙X Elite，分别提升40%、47%和73%；若与当前Intel当家的酷睿Ultra 9 185H相比，平均性能提升36%；对比苹果M3，图形处理性能提升更高达98%。

目测搭载该款XPU的AI PC（笔记本电脑）将快速大量上市，比如华硕、戴尔、惠普、联想、微星和宏基等，已有100多款新品将从7月陆续上市。

苏姿丰还带来了Zen5 Ryzen 9000系列桌面处理器（Granite Ridge），基于Zen5构架，首批产品将于2024年7月底推出。

简单看看，Ryzen 9000系列是继Ryzen 7000“Raphael”和Ryzen 8000“Hawk Point”系列之后，AM5插槽的第三个系列，配备两颗最多有8个核心，最高16个内核和具备32线程的Zen5小芯片。

据AMD官方测试数据，Zen 5内核面向PC平台的IPC性能相比Zen 4平均提升约16%。与Intel Core i9-14900K相比，Ryzen 9 9950X在游戏性能测试中的速度快4%-23%；Ryzen 9950X的生产力性能，比Intel Core i9-14900K快7%-56%。

赛道Hyper | AMD苏姿丰：敢笑业界无男儿！

相关资讯