ChatGPT兴起,竟致在线问答公共知识共享减少?

一项发表于《PNAS Nexus》的新研究显示,大型语言模型(LLM)(如 ChatGPT)的广泛采用,导致像 Stack Overflow 这样的平台上的公共知识共享大幅减少。该研究指出,相较于限制访问 ChatGPT 的类似平台,在 ChatGPT 发布后的六个月内,这个热门的编程问答网站的用户活动减少了 25%。

“LLM 如此强大,具有如此高的价值,并对世界产生了巨大影响。人们开始思考其未来,”第一作者玛丽亚·德尔·里奥-查诺纳(Maria del Rio-Chanona)说道,她是复杂性科学中心(CSH)的副教授。

“我们的研究假设,人们不再于像 Stack Overflow 这般的公共平台发布问题并获取答案,毕竟在那里人人都能看到并从中学习,而是在 ChatGPT 上私下问询。然而,像 ChatGPT 这样的 LLM 也是基于这种开放和公共数据进行训练的,它们在某种程度上正在取代这些数据。那么,这将会发生什么呢?”德尔·里奥-查诺纳补充道,她也是伦敦大学学院的助理教授,牛津马丁学院新经济思维研究所和剑桥大学贝内特公共政策研究所的副研究员。

“从我们的研究结果来看,我们发现,自 ChatGPT 发布以来,Stack Overflow 上的问题和答案越来越少。这产生的影响相当大。这意味着未来可能没有充足的公共数据用于训练模型,”德尔·里奥-查诺纳警告道。在这项研究中,她与来自慕尼黑路德维希马克西米利安大学的纳德泽亚·劳伦采娃,以及布达佩斯考文纽斯大学的 CSH 教员兼教授约翰内斯·瓦克斯展开合作。

“Stack Overflow 是一个任何有互联网连接的人都能访问的极具价值的知识数据库。全世界的人们都从其他人发布的问题和答案中学习,”瓦克斯说。

事实上,就连像 ChatGPT 这样的人工智能模型也是以人类生成的内容(比如 Stack Overflow 上的帖子)为训练基础。讽刺的是,人工智能对人类内容创作的取代,会让未来人工智能模型的训练愈发困难。通常认为,用人工智能生成的数据来训练新模型,效果往往不好,这一过程就好比复印一份复印件。

德尔·里奥 - 查诺纳及其同事解释道,研究结果还指出了一些情况,这些情况不单单是技术变革,还触及到了我们的经济和社会结构。随着用户更多地与像 ChatGPT 这样的大型语言模型进行交互,他们可能不太愿意为开放知识平台做出贡献,从而导致有价值的数据从公共存储库转移到私人拥有的人工智能系统中。

研究人员指出:“这代表着知识从公共领域向私人领域的重大转移。”

德尔里奥 - 查诺纳及其同事发现,Stack Overflow 上内容创作的减少对从新手到专家的所有经验水平的用户都产生了影响。

他们还观察到,通过用户反馈来衡量,帖子的质量并未显著降低,这意味着低质量和高质量的贡献均被大型语言模型所替代。

此外,该研究表明,某些编程语言(如 Python 和 JavaScript)的发布量下降幅度显著高于该平台的平均水平。

“结果表明,人们确实在 ChatGPT 上询问关于 Python 和 JavaScript 这两种最常用编程语言的问题,而不是在 Stack Overflow 上,”德尔·里奥 - 查诺纳说道。