国产数字新基建,放眼未来的“大模型”建设

出品|本站新闻

导语:ChatGPT风靡全球,作为一种人工智能“大模型”被认为能在很大程度上改变人们的生活,中国也正大力发展的全国性大型算力中心的建设也取得了阶段性成功,将推动“让用户像用电一样使用算力服务”的发展愿景。随着模型和算力的普及化,国产人工智能发展也将迈入新的台阶。

一、模型与数据驱动人工智能

2017年5月,当时围棋世界排名第一的棋手柯洁在万众瞩目的“人机大战”中0:3完败于谷歌研发的AI程序AlphaGo,这个标志性的事件给很多人提了个醒:AI的浪潮已经开始席卷而来了。

AI带来的劳动价值将让人类彻底摆脱某种“稀缺”,摆脱重复的劳动,从而使人类的解放成为可能。真正获得全面解放和完全自由的人类,将拥有更充裕的时间来发展自己的兴趣爱好、思考人生、享受生活、改变世界,实现精神财富和物质财富的双丰收。

但距离做到这一点,依旧需要相当长时间的发展和相当多的投入。

计算机程序的发展已经使得设备能够按照人类已经输入好的指令机械地运行,适用于纯粹重复性的工作,这已经在很多领域已经极大减少了人的工作量,这种基于输入性规则的程序可以称得上是最初级的AI。

目前世界各国着力发展的更高级的AI则力图在更多的领域也能做到这一点。它的核心含义是指,通过恰当的方法学习合适的已有经验(以数据的形式),来获得一种通用的决策方式。经过测试之后就可以在类似的场景下自动做出决策,从而实现自动进行重复劳动的目的。

AI发展的具体效果分别取决于两个因素——“恰当的方法”以及“合适的已有经验”,对应了模型驱动和数据驱动两个流派,它们在动机、模式、映射关系等方面各有不同,但并不矛盾。模型驱动和数据驱动的区别在于数据处理方式:如果数据处理并不改变模型本身,就是模型驱动;如果数据处理改变了模型,让模型去贴合数据,就是数据驱动的研究方法。在解决实际问题中,各自都存在优势和限制。

对我国而言,中文语料库的体量约为全球英文语料库的十分之一。首先是对数据本身做预处理,然后需要大量人工标注数据集,这样才能够让模型来学习人的行为模式,整套流程花费甚巨。而模型驱动的方法则需要大量试错,需要平衡模型的复杂程度和算力投入,且每次试错需要付出大量的算力和时间代价。因此,基于大量共用数据的,且经过充分验证的“大模型”概念成为了一种具有竞争力的方案。

二、“大模型”赋能各行各业

过去以小型团队为单位,通过寻找合适的数据与模型的确能产生效果较好的AI程序,但“点对点”的适应单一任务的模型依旧让其摆脱不了“小作坊”的形式。“大模型”指通过在大规模宽泛的数据上进行训练后能适应一系列下游任务的模型。

近年,各种“大模型”在早期预训练中显示出前所未有的威力,成为AI创新的共识,很多模型的达成的效果都已经给人产生了深刻的印象。通过超算中心等战略投资,目前我国已经在农业、金融、互联网、生物医药等领域都拥有了自主知识产权的“大模型”。

“大模型”提供了一种在某个领域通用化的解决方案,通过“预训练大模型与下游任务微调”的方式,通过大模型从大量数据中捕获知识,极大扩展了模型的泛化能力,后期根据下游任务的少量数据进行少量针对性的训练,能有效压缩后续投入,这一套流程使得AI程序的产出更高效。

然而,“大模型”的开发过程繁复、门槛也很高,训练一个“大模型”的总投入在数千万美元级别,例如ChatGPT的单次训练就需要耗资150万美元。“大模型”的大,主要体现在以下两方面。AI模型为准确拟合相关场景的决策,其表现通常与参数量成正比。而“大模型”参数级别更是随着泛化能力要求的增加水涨船高,以谷歌的Switch Transformer为例,它的参数量已经达到了万亿级别(ChatGPT的参数量为千亿级别),“大模型”的设计和训练投入堪称恐怖。

其次是数据大,“大模型”的目的是拥有尽可能大的拓展潜力,这意味着数据的收集和标注必须尽可能覆盖到这些范围内。模型大的根本原因是数据大,“大模型”所使用的数据量都是至少数十个TB级别,数据收集和人工标注的成本都非常高,例如ChatGPT为规避美国的高昂人力成本,数据是在肯尼亚雇佣了大量人员手工进行标注,即使如此标注成本也高达数亿美元。

这两者的结合,在技术上导致了“大模型”初始的训练、后期的微调和日常使用中算力需求较大,本地设备远无法负担,甚至不是某一个单一服务器下的设备能完成的了,必须使用某种联网机制,通过联合计算加快训练。

三、“东数西算”构筑算力基建

与互联网类似作为战略新兴行业,AI的发展离不开充足算力的保证。让科研人员甚至民众“像用电、用网一样使用算力服务”的发展,将有力地支撑我国在AI领域的发展。算力资源目前稀缺且昂贵,通过统筹建设,成立全国性的大型算力中心,有助于算力更公平地流向科研在内的各领域。

同时,算力的建设和分配需要考虑到服务器的地理因素。由于大部分的数据在经济较发达的沿海地区产生和清洗,而数据计算过程中则需要消耗大量能源,且需要考虑到散热问题,综合来看算力中心最适合建设在电力便宜、气候恒温的地方。在此基础上我国提出了基于“东数西算”(在东部产生数据,在西部运行计算)思想的一体化算力网络。

在国家“东数西算”工程与全国一体化算力网络的布局下,中国算力网计划已全面展开。计算节点数已经超过了二十个,在地理上去中心化的前提下,国家在每个地区集约化地统筹建设人工智能算力中心,同时真正实现全国大型算力的协同调度与高效计算。

结语:

我国集中力量打造的“大模型”和国家级算力网络,其目的都是为了更高效地产生实用的AI算法,并在下一代科技革命中占得先机。放眼未来,我们能用这样的AI创造出更多人类的新篇章。