国产AI芯片算力:幸好我们有华为,不幸的是只有华为
一、算力对比:
算力简单对比: H100/H800 ≈ 5 * 910B ≈5 * A800/A100 ≈ 10 * H20/L20
国产AI训练芯片以华为昇腾系列为代表。华为2018年首发昇腾B310推理芯片;2019年发布昇腾910芯片,然后被制裁,直到2023年发布昇腾910B芯片;2023年科大讯飞公布其使用昇腾910B的星火一体机,据科大讯飞信息,华为910B芯片算力可以对标A100;其后,百度为200台服务器订购了1600片昇腾910B。
A800(PCIe/SXM)
A100(PCIe/SXM)
华为Ascend 910B
H800(PCIe/SXM)
H100(PCIe/SXM)
L20(PCIe)
H20(PCIe/SXM)
深算一号
年份
2022
2020
2023
2022
2022
2023
2023
21H1
工艺
7nm
7nm
7nm
4nm
4nm
4nm
4nm
7nm
架构
Ampere
Ampere
HUAWEI Da Vinci
Hopper
Hopper
Ada Lovelace
Hopper
TDP
300/400W
300/400W
400W
350/700W
275W
400W
350W
GPU内存
80G HMB2e
80G HMB2e
80G HMB2e
80G HMB3
80G HMB3
48G DDR6
80G HMB3
32G
GPU互联(一对一)
NVLINNK 400GB/s
PCIe Gen4 64GB/sNVLINNK 600GB/s
HCCS 56GB/s
NVLINNK 400GB/s
PCIe Gen5 128GB/sNVLINNK 900GB/s
PCIe Gen4 64GB/s
PCIe Gen5 128GB/sNVLINNK 900GB/s
PCIe Gen4 16GB/s
GPU互联(一对多)
NVLINNK 400GB/s
PCIe Gen4 64GB/sNVLINNK 600GB/s
HCCS 392GB/s
NVLINNK 400GB/s
PCIe Gen5 128GB/sNVLINNK 900GB/s
PCIe Gen4 64GB/s
PCIe Gen5 128GB/sNVLINNK 900GB/s
xGMI*2,184GB/s
FP32
19.5 TFLOPS
19.5 TFLOPS
51/67 TFLOPS
59.8 TFLOPS
44 TFLOPS
TP32(TensorFloat)
156/312 TFLOPS
156/312 TFLOPS
756/989 TFLOPS
59.8 TFLOPS
74 TFLOPS
BFLOAT16 TensorCore
156/312 TFLOPS
156/312 TFLOPS
119/119 TFLOPS
148/148 TFLOPS
FP16 TensorCore
312/624 TFLOPS
312/624 TFLOPS
320 TFLOPS
1513/1979TFLOPS
FP8 TensorCore
不支持
不支持
640 TFLOPS
3026/3958 TFLOPS
INT8 TensorCore
624/1248 TFLOPS
624/1248 TFLOPS
640 TFLOPS
3026/3958 TFLOPS
239/239 TFLOPS
296/296 TFLOPS
二、国内AI芯片格局将巨变
2024年,英伟达在中国的AI芯片市场份额将大幅下滑,从90%下降到57%,国产算力份额将上升到43%,其中华为昇腾系列是国产AI算力的绝对主力,将从8%上升到35%。
年份
2022年
2023
2024
英伟达
85%
90%
57%
华为
10%
8%
35%
国产其他
5%
2%
8%