GTC 2024強強聯手更上層樓
【文/周佳蓉】
一年一度的GTC 大会风光落幕,此次带来最新AI晶片、超级电脑、人型机器人计划等重磅消息,大幅度的AI应用进化,也让辉达的AI霸主地位更加稳固。
距离辉达(Nvidia)首届举办GTC大会的二○○九年,已十五个年头匆匆过去,如今辉达在全世界半导体的地位已不可同日而语,继二三年冲破一兆美元,今年市值再度冲刺超过二.二兆美元,美股排名仅次于微软(Microsoft)和苹果(Apple)两大科技巨头之后,暌违五年的实体盛会,全球将GTC大会视作全球AI风向球,创办人黄仁勋的演讲谈话也动见观瞻。三月十八日对着会场座无虚席的人群,黄仁勋幽默地澄清:「这不是一场音乐会」,并表示能召集全球价值高达一○○兆美元、大量非IT行业代表参与此盛会,感到相当自豪。
小发表新一代AI GPU B200
辉达按照每两年的更新频率,升级一次GPU架构,从二二年首发采用Hopper架构的H100起引领着辉达稳坐AI晶片霸主地位,这次再推出采用 Blackwell 架构的GPU-B200。
B200是由台积电的五奈米家族(N4P)制程打造而成,并整合两个独立制造的裸晶(Die),共含二○八○亿个电晶体,B200透过小晶片(Chiplet)先进封装将八颗HBM3e高频宽记忆体,记忆体达到一九二GB、频宽达一.八TB/s,并预告今年稍晚会推出。
GB200则是由两个Blackwell GPU和一个既有的ARM架构的Grace CPU组成的更强大AI加速晶片,延伸的还有基于GB200打造的DGX GB200 NVL72,以及运算效能更强大的超级电脑DGX SuperPOD。
相比Hopper和Ampere架构,Blackwell架构的B200性能有了巨幅提升,最大可支援十兆参数的模型训练,以OpenAI的GPT-3和GPT-4做比较,最高分别支援为一七五○亿和一.八兆个参数,而NVLink是由辉达开发作为CPU/GPU间的高速互联通道,可最大化提升CPU/GPU的传输效率,如今已进化到第五代,成为B200传输速度能大幅提升的关键。
全新的加速运算平台DGX GB200 NVL 72,则拥有九个机架,共搭载十八个GB200加速卡,一套DGX版内部使用五千条NVLink铜缆线,累计长度绵延近二公里,可以减少二○KW的运算能耗,与相同数量的H100 GPU相比,在大型语言模型(LLM)推理工作性能可提升三○倍,成本和能耗最多可降低二五倍,针对AI运算需求庞大的企业,辉达目前已宣布亚马逊AWS计划采购由二万片GB200晶片组建的伺服器,Dell、 Alphabet、Meta、Mirosoft、OpenAI、Oracle和特斯拉也将成为DGX GB200伺服器的采用者。
晶片仰赖台积电N4P制程
而DGX SuperPOD为新一代超级电脑平台,由八套DGX GB200系统打造而成,采用液冷设计,提供十一.五exaflops AI运算能力,辉达强调若企业预算足够,最终可扩展至数万个GB200 超级晶片,并透过NVLink连接五七六个Blackwell GPU,取得庞大共享记忆体。
值得注意的是,辉达也发表了新款基于大规模AI的网路交换机X800系列,以及人形机器人的模型GR00T专案,该专案内含开发套件Jetson Thor、更新的ISAAC Lab开发工具库,GB200可透过X800取得八○○Gb/s超高速网路,而GR00T允许开发者利用平台模拟机器人学习技能,支持数千个机器人同步训练与模拟。
继硬体之后,软体服务也是辉达不可或缺的护城河之一,辉达发表了整合AI开发软体微服务系统的NIM,透过直接提供多产业、多模态的专有模型,让缺乏AI开发经验的传统行业也有机会跨入。
不论是B100、B200晶片的推出都仰赖台积电的N4P制程,是台积电基于五奈米技术的效能强化版本,尽管此次辉达的晶片并非如外界预期直接导入三奈米制程,不过也是辉达首款采用小晶片(Chiplet)及CoWoS-L形式先进封装的产品,解决高耗电量与散热问题,而随着台积电对于先进制程、先进封装的扩厂动作积极,相关半导体设备、耗材股可望持续大啖商机。
【全文详情及图表请见《先探投资周刊》2292期;订阅先探投资周刊电子版】