☰

国产AI芯片算力：幸好我们有华为，不幸的是只有华为

一、算力对比：

算力简单对比： H100/H800 ≈ 5 * 910B ≈5 * A800/A100 ≈ 10 * H20/L20

国产AI训练芯片以华为昇腾系列为代表。华为2018年首发昇腾B310推理芯片；2019年发布昇腾910芯片，然后被制裁，直到2023年发布昇腾910B芯片；2023年科大讯飞公布其使用昇腾910B的星火一体机，据科大讯飞信息，华为910B芯片算力可以对标A100；其后，百度为200台服务器订购了1600片昇腾910B。

A800（PCIe/SXM）

A100（PCIe/SXM）

华为Ascend 910B

H800(PCIe/SXM)

H100(PCIe/SXM)

L20(PCIe)

H20(PCIe/SXM)

深算一号

年份

2022

2020

2023

2022

2023

21H1

工艺

7nm

4nm

7nm

架构

Ampere

HUAWEI Da Vinci

Hopper

Ada Lovelace

Hopper

TDP

300/400W

400W

350/700W

275W

400W

350W

GPU内存

80G HMB2e

80G HMB3

48G DDR6

80G HMB3

32G

GPU互联（一对一）

NVLINNK 400GB/s

PCIe Gen4 64GB/sNVLINNK 600GB/s

HCCS 56GB/s

NVLINNK 400GB/s

PCIe Gen5 128GB/sNVLINNK 900GB/s

PCIe Gen4 64GB/s

PCIe Gen5 128GB/sNVLINNK 900GB/s

PCIe Gen4 16GB/s

GPU互联（一对多）

NVLINNK 400GB/s

PCIe Gen4 64GB/sNVLINNK 600GB/s

HCCS 392GB/s

NVLINNK 400GB/s

PCIe Gen5 128GB/sNVLINNK 900GB/s

PCIe Gen4 64GB/s

PCIe Gen5 128GB/sNVLINNK 900GB/s

xGMI*2，184GB/s

FP32

19.5 TFLOPS

51/67 TFLOPS

59.8 TFLOPS

44 TFLOPS

TP32(TensorFloat)

156/312 TFLOPS

756/989 TFLOPS

59.8 TFLOPS

74 TFLOPS

BFLOAT16 TensorCore

156/312 TFLOPS

119/119 TFLOPS

148/148 TFLOPS

FP16 TensorCore

312/624 TFLOPS

320 TFLOPS

1513/1979TFLOPS

FP8 TensorCore

不支持

640 TFLOPS

3026/3958 TFLOPS

INT8 TensorCore

624/1248 TFLOPS

640 TFLOPS

3026/3958 TFLOPS

239/239 TFLOPS

296/296 TFLOPS

二、国内AI芯片格局将巨变

2024年，英伟达在中国的AI芯片市场份额将大幅下滑，从90%下降到57%，国产算力份额将上升到43%，其中华为昇腾系列是国产AI算力的绝对主力，将从8%上升到35%。

年份

2022年

2023

2024

英伟达

85%

90%

57%

华为

10%

35%

国产其他

国产AI芯片算力：幸好我们有华为，不幸的是只有华为

相关资讯