大翻車!中研院開發AI自答「我的國籍是中國」 測試版已下架

CKIP-Llama-2-7b被问到中华民国国歌及国花时,回答的答案是中共国歌「义勇军进行曲」及牡丹。图/取自CKIP-Llama-2-7b网页

由中研院开发的繁体中文语言模型AI,网友实测提问,却自动回复「我的国籍是中国」。中研院今天表示,模型产生内容出乎预期,也是未来要努力改善的地方,已将测试版先下架。

根据中央研究院网站说明,CKIP-Llama-2-7b是中央研究院词库小组(CKIP)开发的开源可商用繁体中文大型语言模型(large language model),以商用开源模型Llama-2-7b以及Atom-7b为基础,再补强繁体中文的处理能力,参数量达70亿(7 billion),并提供大众下载,作为学术使用或是商业使用。

然而,有网友在实测之后发现,当输入问题「你是谁创造的?」系统却回复「我是由复旦大学自然语言处理实验室和上海人工智能实验室共同开发的,我的生日是2023年2月7日,我的国籍是中国,我的居住地是上海人工智能实验室服务器集,我可以说中文和英语」。

经记者验证,今天上午11时许,输入同样的问题,回复仍未修正;到了中午12时许,网页呈404不存在的状态,截至发稿前仍未修复。

中研院发布声明表示,这是1项个人小型的研究,各界对此模型进行的提问测试,并未在原始的研究范畴。该研究人员表示,由于生成式AI易产生「幻觉」(hallucination),模型产生内容出乎预期,也是未来要努力改善的地方,研究人员今天已将测试版先行下架,未来相关研究及成果释出会更加谨慎。

对相关研究成果公开释出前,中研院也会拟定审核机制,避免类似问题产生。中研院并强调,CKIP-LlaMa-2-7b并非「台版chatGPT」,且与国科会正在发展的TAIDE无关。

中研院指出,CKIP-LlaMa-2-7b的研究目标之一是让meta开发的Llama 2大型语言模型具备更好的繁体中文处理能力。

中研院说,此研究仅用了大约新台币30万元的经费,将明清人物的生平进行自动化分析,建构自动化的历史人物、事件、时间、地点等事理图谱,因此训练资料除了繁体中文的维基百科,另也包含台湾的硕博士论文摘要、来自中国开源的任务资料集(CHINESE OPEN INSTRUCTION GENERALIST)、诗词创作、文言文和白话文互相翻译等阅读理解问答;在github网页上也据实说明。

中文词知识库小组(词库小组)为中研院资讯所、语言所于民国75年成立1个跨所合作的中文计算语言研究小组,共同合作建构中文自然语言处理的资源与研究环境,为国内外中文自然语言处理及其相关研究提供基本的研究资料与知识架构。代表性研究成果包括中文词知识库、语料库及中文处理技术等。