☰

不只是誇獎！OpenAI訓練AI學會「懺悔」要讓新系統誠實招認錯誤行為

为了让人工智慧更具透明度，并且减少一本正经胡说八道的情况，OpenAI说明正在开发一种全新的训练框架，被团队称为「忏悔」 (Confession)机制，其核心概念在于训练AI模型主动承认自己何时表现出不良行为，即便该行为本身是错误的，只要「诚实招认」，就能获得奖励。

解决AI「阿谀奉承」与过度自信的幻觉

OpenAI指出，目前大型语言模型 (LLM) 通常被训练为产出「看起来符合用户预期」的回应。而这也导致一种副作用：模型越来越容易出现「阿谀奉承」 (sycophancy)的倾向，亦即为了讨好用户而顺着话说，或者是充满自信地陈述错误资讯 (也就是产生幻觉现象)。

为了解决这个问题，新的训练模型试图鼓励AI在提供主要答案之外，给出一个「次要回应」 (secondary response)，解释其做了什么才得出答案。

奖励机制：只要诚实，承认「作弊」也给分

这个「忏悔」系统的运作逻辑与传统训练截然不同，一般的回答会根据有用性、准确性与合规性来评分，但「忏悔」仅根据「诚实度」来评分。

而OpenAI在技术文件中解释：「如果模型诚实地承认自己绕过测试 (hacking a test)、偷懒 (sandbagging)，甚至违反指令，系统将会针对这种承认行为增加奖励，进而让模型可以更如实陈述在什么过程「说谎」，进而让系统能使模型即时修正所生成答案，借此降低生成内容有「幻觉」的比例。

意味OpenAI希望「鼓励」模型对自己的行为保持坦率，即便是潜在的问题行为也不隐瞒，而这种让AI学会「忏悔」的机制，或许将成为未来提升大型语言模型安全性与可解释性的重要一环。

《原文刊登于合作媒体mashdigi，联合新闻网获授权转载。》

不只是誇獎！OpenAI訓練AI學會「懺悔」 要讓新系統誠實招認錯誤行為