小米传投入百亿元搭建GPU「万卡集群」 抢攻AI大模型领域

▲北京小米总部。(图/CFP)

记者魏有德/综合报导

陆媒《界面新闻》昨(26)日释出一则独家报导称,有相关人士透露,小米正着手搭建自己的GPU万卡集群,对AI大模型大力投入,数据显示,小米大模型团队在成立时已有6500张GPU资源。对此,小米方在发稿前仍未主动回应,低调应对。

▲小米传出将建立「万卡集群」扩大应用AI大模型领域。(图/路透)

《每日经济新闻》报导,国际上,OpenAI、Meta等科技巨头,都争相部署万卡集群;在国内,运营商、头部互联网大厂、大型AI研发企业等先后入局,一些巨头甚至已开始迈向「十万卡集群」。

「万卡集群」象征由一万张及以上的加速卡(GPU、TPU或其他专用AI加速晶片)组成的高性能计算系统,用以训练基础大模型。建设万卡集群是「百亿元(人民币,下同)」成本的投入,其中,光采购GPU的成本就上看几十亿元。

独立电信分析师付亮分析称,假设小米搭建万卡集群的消息属实,代表小米将大模型视为 「人车家」战略的重要支撑,其建设万卡集群的方向或与其他企业不同,「别人没有利用率,小米自带利用率。」

百度集团执行副总裁、百度智能云事业群总裁沈抖曾透露,GPU集群有「极致规模、极致高密和极致互联」三种特征,「建一个万卡集群,单是GPU的采购成本就高达几十亿元。而建设GPU万卡集群需要面临的风险之一便是故障率,Meta训练Llama3的时候,用了1.6万张GPU卡的集群,平均每3小时就会出一次故障。」

即使建立「万卡集群」要付出高昂成本,但这也被视为进入AI大模型赛道的「入场券」,毕竟,模型大小和训练数据量大小是决定模型能力的关键因素,也就是所谓的「算力」决定一切,超万卡的集群将有助于压缩大模型训练时间,实现模型能力的快速迭代,并对市场趋势作出及时反应。

小米集团于2023年5月的一份业绩公告显示,该年4月正式组建AI实验室大模型团队,AI领域相关人员超1200人,将不断挖掘AI相关的用户场景,发挥自身技术优势,并以开放的态度与合作伙伴开拓更多机会。

至于2023年8月,小米集团的另一份公告中显示,AI是小米长期投入的底层赛道,小米拥有60亿参数的自研大模型在同参数量级中排名第一。直至2023年11月,小米正式将AI大模型与小米澎湃OS深度融合,为用户提供基于端侧大模型的各类便利和智能的功能。