重大突破!中国移动、华为、中兴等联合发布首颗GSE DPU芯片
11月19日消息,在2024 世界互联网大会“互联网之光”博览会上,中国移动宣布,携手华为、中兴、华三、锐捷、盛科、云豹智能等产业合作伙伴共同发布首颗全调度以太网(GSE)DPU 芯片 ——“智算琢光”,填补了我国在新型智算中心网络高性能DPU芯片领域的空白。
据中国移动介绍,“智算琢光”芯片是首颗全量支持GSE标准的DPU芯片,支持200G端口速率、以及GSE协议特有的报文容器喷洒以及基于DGSQ的拥塞控制机制等能力。基于该芯片搭建的GSE网络性能可比传统RoCE网络提升30%以上,大幅提升GPU节点间通信效率。
目前,该芯片已与多家主流交换芯片完成了对接验证,展现了强大的兼容性和实用性。
关于DPU芯片:国内外代表性公司
DPU(数据处理单元)是一种以数据为中心构造的专用处理器,被视为数据中心继CPU和GPU之后的“第三颗主力芯片”。DPU的应用领域广泛,包括人工智能和深度学习、边缘计算、加密与安全等。
本次发布的“智算琢光”,标志着我国在高性能数据中心芯片领域的重大突破。
目前,英伟达(NVIDIA)是全球领先的DPU芯片供应商,其DPU产品在市场上具有显著的影响力和领先地位。
英伟达在2019年以69亿美元的价格收购了网络芯片公司Mellanox,并于次年(2020年)推出BlueField-2 DPU,并认为DPU将和CPU、GPU一起构成未来计算的三大支柱,自此引爆了DPU概念。随后,英伟达也在持续迭代其DPU产品,包括BlueField-2和BlueField-3 DPU。
在2021年6月的Six Five峰会上,英特尔也推出了类似DPU产品,全新的基础设施处理器(IPU),以提升数据中心的数据处理能力。
2022年,AMD以约19亿美元收购了DPU 芯片制造商Pensando Systems,以继续扩大其数据中心业务,正式进入了DPU市场。
除此之外,亚马逊 AWS 旗下的 Nitro 卡也可提供此类功能。
2023年初,微软宣布对 DPU 技术提供商Fungible的收购,又一巨头进入DPU领域。最新消息,就在11月19日举行的Ignite开发者大会上,微软正式推出了首款自研DPU(数据处理器)产品Azure Boost DPU。
国内方面,中国移动、阿里等大企业也在研发专用的DPU,初创企业如芯启源、星云智联、中科驭数、大禹智芯、云脉芯联等也取得了相应的成果或进步。
2022年7月,中国移动、中兴通讯、英特尔(中国)、华为、芯启源、大禹智芯等还联合编写发布了《中国移动DPU技术白皮书》,进一步推动了DPU技术发展和产业繁荣。
在DPU商业化落地方面,目前国内有华为、阿里、中兴等大型云厂商,以及芯启源、中科驭数等少数DPU新势力已实现商用。
目前来看,DPU虽尚处于起步阶段。但据赛迪顾问发布的数据,预计到2025年全球 DPU 产业市场规模将超过245.3亿美元(约1771亿人民币),DPU市场或将实现跳跃式增长,进入黄金发展期。
关于全调度以太网技术(GSE)
随着大模型的发展,对算力的需求急剧增加。大规模GPU集群的互联网络技术对于提升集群有效算力至关重要。
在此背景下,2023年5月,中国移动联合10余家中国企业率先发布了全调度以太网技术架构(GSE)白皮书,并在8月中国算力大会上正式启动“GSE推进计划”,成员包括国内外主流云服务商、设备商、芯片商、高校等50余家产学研机构。
GSE,Global Scheduling Ether,即全调度以太网技术架构。旨在打造标准开放、合作共赢的新型智算中心网络技术标准,与美国公司主导的超级以太网联盟(UEC)成为全球范围内两个具有影响力的技术体系。(UEC由博通、思科、Arista、微软、Meta等国际顶级半导体、设备和云厂商牵头成立,旨在创建一个“基于以太网的完整通信堆栈架构”。)
与传统以太网基于流进行负载分担的机制不同,GSE 交换网络采用定长的PKTC进行报文转发及动态负载均衡,通过构建基于PKTC的DGSQ全调度机制、精细的反压机制和无感知自愈机制,实现微突发及故障场景下的精准控制,全面提升网络有效带宽和转发延迟稳定性。
全调度以太网面向AI、HPC 等高性能计算场景设计,架构设计遵循以下三大原则:
全调度以太网构建开放透明标准化的技术体系,供所有高性能计算生态涉及到的芯片(GPU、DPU、CPU 等)、设备(服务器、交换机、网卡等)、仪表、操作系统等上下游产业共同使用;
全调度以太网可适应多种高性能计算场景,凡是涉及到无损、高带宽利用率、超低时延需求的业务场景均可通用;
全调度以太网不是重造以太网,而是将高性能计算需求融入以太网,可最大限度地重用以太网物理层,兼容以太网生态链,如光模块、PHY 层芯片等。
在商用方面,GSE技术分为GSE1.0和GSE2.0两个商用阶段。
GSE1.0基于现有芯片最大限度地支持GSE新技术,优化网络性能,目前已在中国移动智算中心(哈尔滨)超万卡集群实现首次商用,将训练过程中通信时间占比缩20%以上,达到国际先进水平。
GSE2.0则全面革新以太网底层转发机制和上层协议栈,通过基于PKTC的多路径喷洒、基于DGSQ的拥塞控制机制以及基于66B原子码块的故障检测与通告等原创技术创新,从根本上解决传统无损以太性能和可靠性问题。
GSE技术的提出和应用,标志着中国在智算中心网络技术领域的重要进展,助力全球AI产业发展。