闕志克/大語言模型逐漸走向專門化

苹果公司上个月在年度开发者大会中,发表了整合生成式AI技术进手机应用的成果,名为Apple Intelligence。这个创新,让用户能更流畅地用文字与他人沟通,并借由图像表达自己的意念和想法;让语音助理Siri更深入地整合用户各个生活层面的讯息,并且同时将保护用户隐私放在首位。虽然外界原本期望很高,但Apple Intelligence发表后一般的评价为「不过尔尔」。这个结果其实意料之中,也非战之罪,因为手机没有足够高效能记忆体,所以大语言模型很难有用武之地。

最先进的通用型大语言模型若要运算顺畅,至少需要数百亿个位元组,然而现今多数智慧型手机的记忆体总量大都低于一百亿个位元组。为解决此问题,苹果采取「分而治之」策略,将一个通用型大语言模型拆解成一个核心模型、多个针对特定领域和特定功能,或特定语言的专门模型,及一个分流器。核心模型只拥有处理基本自然语言的能力,程度如同母语基础良好的高中毕业生。专门模型则深入撷取与学习某特定范畴内的术语、用词、句法、概念、方法、事实和传统,功力如长年浸淫、出色当行的学者专家。分流器则负责分析用户的查询,调用相对应的专门模型,与核心模型协作以产生最适切的回应。

基于以上的架构,苹果将核心模型、分流器和常用的专门模型整合进手机内,但将大部分专门模型留在后端云服务。针对特定查询,如果分流器决定需要调用云端上的专门模型时,它就会将该查询与相关用户资料送往云端,等待回应。需要云端处理的查询当然较耗时,也引发资料隐私的疑虑,所以在推广Apple Intelligence时,苹果承诺任何提交到后端云服务的用户资料在使用后都会被销毁。

「可堆叠语言模型」可以大幅减少语言模型训练与推理时所需的计算量和记忆体需求。道理很简单,假设一个一千亿参数的通用语言模型,可拆解成一百个十亿参数的专门语言模型,在训练时,不但每个专门语言模型的训练计算量急遽降低,而且这一百个模型更可以同时平行训练;在推理时,每个推理动作因只需要这一百个专门模型中的一小部分,所以其总体运算开销也将可望显著缩减。

可堆叠语言模型的崛起,促使微软、谷歌、脸书、苹果等云端巨头和许多新创公司,在过去十二个月都纷纷投入小语言模型的研发,意图开发针对特定用途、但参数量少得很多的专门语言模型。之前大语言模型的目标族群为一般大众,所以需要具备百科全书般的知识,也因此运算资源的需求较庞大。相比之下,小语言模型可以针对特定应用客制,也较适合运用机敏资料作地端训练,所以功能与资源使用率更高,资料保护度更强,对企业用户也更有吸引力。

小语言模型的兴起,对原来聚焦通用大语言模型、企图争取企业客户的新创公司,如OpenAI、Anthropic、Mistral等将形成重大威胁,但也为其他围绕着可堆叠语言模型架构生态圈去开发专门模型的新创公司,打开了一片蓝海的商机。台湾在大语言模型的研发原本处于相对弱势的地位,但专门化的小语言模型,如同针对特定应用客制的晶片一样,将为台湾AI产业提供了一个能与外商一较高下,以满足在地企业专门语言模型需求为商模的大好机会。(作者为清华大学合聘教授)