不只是誇獎!OpenAI訓練AI學會「懺悔」 要讓新系統誠實招認錯誤行為

为了让人工智慧更具透明度,并且减少一本正经胡说八道的情况,OpenAI说明正在开发一种全新的训练框架,被团队称为「忏悔」 (Confession)机制,其核心概念在于训练AI模型主动承认自己何时表现出不良行为,即便该行为本身是错误的,只要「诚实招认」,就能获得奖励。

解决AI「阿谀奉承」与过度自信的幻觉

OpenAI指出,目前大型语言模型 (LLM) 通常被训练为产出「看起来符合用户预期」的回应。而这也导致一种副作用:模型越来越容易出现「阿谀奉承」 (sycophancy)的倾向,亦即为了讨好用户而顺着话说,或者是充满自信地陈述错误资讯 (也就是产生幻觉现象)。

为了解决这个问题,新的训练模型试图鼓励AI在提供主要答案之外,给出一个「次要回应」 (secondary response),解释其做了什么才得出答案。

奖励机制:只要诚实,承认「作弊」也给分

这个「忏悔」系统的运作逻辑与传统训练截然不同,一般的回答会根据有用性、准确性与合规性来评分,但「忏悔」仅根据「诚实度」来评分。

而OpenAI在技术文件中解释:「如果模型诚实地承认自己绕过测试 (hacking a test)、偷懒 (sandbagging),甚至违反指令,系统将会针对这种承认行为增加奖励,进而让模型可以更如实陈述在什么过程「说谎」,进而让系统能使模型即时修正所生成答案,借此降低生成内容有「幻觉」的比例。

意味OpenAI希望「鼓励」模型对自己的行为保持坦率,即便是潜在的问题行为也不隐瞒,而这种让AI学会「忏悔」的机制,或许将成为未来提升大型语言模型安全性与可解释性的重要一环。

《原文刊登于合作媒体mashdigi,联合新闻网获授权转载。》