訓練非英語AI模型 Meta專家:2大挑戰待克服

国科会以Meta语言模型Llama为基础,发展融合台湾元素的可信任人工智慧(AI)对话引擎,Meta专家今天在Connect大会回答中央社提问时表示,打造非英语的语言模型,需要克服词汇量差异、预训练学习率下降等2大挑战。

Meta今天在美国加州总部举办Connect大会,为COVID-19(2019冠状病毒疾病)疫情后首度恢复实体举行,会中发表Quest 3头戴式装置、图像生成模型Emu、结合直播功能的新一代智慧眼镜,为元宇宙铺路。Meta仅邀请全球不到百家媒体与会,中央社为唯一亲临现场的华文媒体。

在Connect主题演讲后进行的媒体团访时间,中央社记者提问,台湾政府部门使用Llama打造中文版AI对话引擎,Meta能否为相关研究者提供建议。Meta AI研究科学家安琪拉.范(Angela Fan)表示,打造非英语的语言模型,会面临一些挑战,其中之一是词汇量(vocabulary size)差异。

安琪拉.范指出,如果某个语言模型的词汇量是根据英语文本进行训练,那么未来使用其他语言训练时,会发现词元(token)分布方式不同。

她以英语为例,一个单字可能被分成2个词元,但在另一种语言中的一个单字可能被分成6个词元,这会对生成式应用带来更多挑战,因为词元分布的任何差异,都可能导致模型输出错误。在大部分时候,人们尝试透过第二阶段的预训练(Pre-training)来改善相关问题。

不过,安琪拉.范提到,预训练资料的多样性也带来另一种挑战。在世界不同地区,人们关心不同的事情,如果主要使用英语资料训练语言模型,能涵盖的知识范围将受限,影响模型输出结果。就实务而言,大多数语言模型进行预训练时,学习率都会逐步下降,必须做出更多调整,也是需要克服的问题。