偷師DeepSeek?OpenAI輕量級模型 被曝使用中文推理
人工智慧公司DeepSeek(深度求索)旗下大模型在全球掀起波澜,对OpenAI公司产生压力。(路透)
OpenAI在1日推出最新研发的轻量级人工智慧模型o3-mini,不过国外网友发现,在没有使用者干预的情况下,竟大量地使用中文进行推理,更有意思的是,即使用俄语去提问,o3-mini-high也会用中文去思考。不禁让国外网友怀疑,是不是OpenAI在「偷师」中国的DeepSeek模型。
中国财经媒体「华尔街见闻」报导,网友质问OpenAI执行长奥特曼和OpenAI,o3-mini到底为什么要用中文进行推理?网友Annalisa Fernandez则表示,或许中文才是LLM(大型语言模型)的「灵魂语言」。
报导称,这并不是OpenAI的模型首次发生这种现象,早在2024年2月,就有开发者在OpenAI开发者社区上发布过类似的问题,不过是混合了其他语言;在推理模型方面,OpenAI o1也存在类似的问题。事实上,这种「语言混杂」(language mixing)现象在其它AI模型中也有发现,例如谷歌的Gemini会混杂德语。
加拿大亚伯达大学助理教授、AI研究员古兹迪亚尔(Matthew Guzdial)指出,「模型并不知道什么是语言,也不知道语言之间有什么不同,因为对它来说这些都只是文本。」
实际上,模型眼中的语言,和一般人理解的完全不同。模型并不直接处理单词,而是处理tokens(符元)。以「fantastic」为例,它可以作为一个完整的token;可以拆成「fan」、「tas」、「tic」3个token;也可以完全拆散,每个字母都是一个token。
但这种拆分方式也会带来一些误会。许多分词器看到空格就认为是新词的开始,但实际上不是所有语言都用空格分词,例如中文。DeepSeek在论文中对这一现象进行了分析。研究团队发现,当强化学习提示词涉及多种语言时,思维链常常出现语言混杂的现象。
目前,「语言混杂」还亟待解决。毕竟DeepSeek-R1也只是针对中文和英文进行优化,在处理其它语言的查询时,也可能出现语言混杂问题。