国产AI芯片算力:幸好我们有华为,不幸的是只有华为

一、算力对比:

算力简单对比: H100/H800 ≈ 5 * 910B ≈5 * A800/A100 ≈ 10 * H20/L20

国产AI训练芯片以华为昇腾系列为代表。华为2018年首发昇腾B310推理芯片;2019年发布昇腾910芯片,然后被制裁,直到2023年发布昇腾910B芯片;2023年科大讯飞公布其使用昇腾910B的星火一体机,据科大讯飞信息,华为910B芯片算力可以对标A100;其后,百度为200台服务器订购了1600片昇腾910B。

A800(PCIe/SXM)

A100(PCIe/SXM)

华为Ascend 910B

H800(PCIe/SXM)

H100(PCIe/SXM)

L20(PCIe)

H20(PCIe/SXM)

深算一号

年份

2022

2020

2023

2022

2022

2023

2023

21H1

工艺

7nm

7nm

7nm

4nm

4nm

4nm

4nm

7nm

架构

Ampere

Ampere

HUAWEI Da Vinci

Hopper

Hopper

Ada Lovelace

Hopper

TDP

300/400W

300/400W

400W

350/700W

275W

400W

350W

GPU内存

80G HMB2e

80G HMB2e

80G HMB2e

80G HMB3

80G HMB3

48G DDR6

80G HMB3

32G

GPU互联(一对一)

NVLINNK 400GB/s

PCIe Gen4 64GB/sNVLINNK 600GB/s

HCCS 56GB/s

NVLINNK 400GB/s

PCIe Gen5 128GB/sNVLINNK 900GB/s

PCIe Gen4 64GB/s

PCIe Gen5 128GB/sNVLINNK 900GB/s

PCIe Gen4 16GB/s

GPU互联(一对多)

NVLINNK 400GB/s

PCIe Gen4 64GB/sNVLINNK 600GB/s

HCCS 392GB/s

NVLINNK 400GB/s

PCIe Gen5 128GB/sNVLINNK 900GB/s

PCIe Gen4 64GB/s

PCIe Gen5 128GB/sNVLINNK 900GB/s

xGMI*2,184GB/s

FP32

19.5 TFLOPS

19.5 TFLOPS

51/67 TFLOPS

59.8 TFLOPS

44 TFLOPS

TP32(TensorFloat)

156/312 TFLOPS

156/312 TFLOPS

756/989 TFLOPS

59.8 TFLOPS

74 TFLOPS

BFLOAT16 TensorCore

156/312 TFLOPS

156/312 TFLOPS

119/119 TFLOPS

148/148 TFLOPS

FP16 TensorCore

312/624 TFLOPS

312/624 TFLOPS

320 TFLOPS

1513/1979TFLOPS

FP8 TensorCore

不支持

不支持

640 TFLOPS

3026/3958 TFLOPS

INT8 TensorCore

624/1248 TFLOPS

624/1248 TFLOPS

640 TFLOPS

3026/3958 TFLOPS

239/239 TFLOPS

296/296 TFLOPS

二、国内AI芯片格局将巨变

2024年,英伟达在中国的AI芯片市场份额将大幅下滑,从90%下降到57%,国产算力份额将上升到43%,其中华为昇腾系列是国产AI算力的绝对主力,将从8%上升到35%。

年份

2022年

2023

2024

英伟达

85%

90%

57%

华为

10%

8%

35%

国产其他

5%

2%

8%