综合RLHF、DPO、KTO优势,统一对齐框架UNA来了
论文主要作者:
1. 王智超:本科就读于厦门大学土木工程系,研究生博士就读于佐治亚理工并获得土木工程和计算机工程硕士及机械工程博士,现任职于 Salesforce,专注于 LLM Alignment。
2. 闭彬:本科就读于华中科技大学计算机工程系,研究生就读于香港大学计算机科学系,博士就读于 UCLA 计算机科学系,现任职于 Salesforce,专注于 LLM Alignment。
3. 黄灿:厦门大学数学系副教授
随着大规模语言模型的快速发展,如 GPT、Claude 等,LLM 通过预训练海量的文本数据展现了惊人的语言生成能力。然而,即便如此,LLM 仍然存在生成不当或偏离预期的结果。这种现象在推理过程中尤为突出,常常导致不准确、不符合语境或不合伦理的回答。为了解决这一问题,学术界和工业界提出了一系列对齐(Alignment)技术,旨在优化模型的输出,使其更加符合人类的价值观和期望。
其中,RLHF 是一种广泛使用的方法,依赖于从人类反馈中学习强化策略。RLHF 的流程包括两个阶段:首先,通过人类偏好数据训练奖励模型(Reward Model, RM),然后使用该奖励模型指导策略模型(Policy Model)的强化学习优化。然而,RLHF 存在若干显著问题,如高内存占用、训练不稳定以及流程复杂等。
为了解决 RLHF 的复杂性,DPO 方法被提出。DPO 简化了 RLHF 的流程,将强化学习的训练阶段转化为一个二分类问题,减少了内存消耗并提高了训练稳定性。但 DPO 无法充分利用奖励模型,且仅适用于成对的偏好数据,无法处理更为广泛的反馈类型。
此外,KTO 进一步扩展了 DPO,能够处理二元数据(如正向和负向反馈),但它同样有其局限性,无法统一处理不同类型的反馈数据,也无法有效利用已有的奖励模型。
在这种背景下,来自 Salesforce、厦门大学的研究团队提出了一种名为 UNA 的新方法,它通过一种通用的隐式奖励函数,统一了当前主流的大规模语言模型(LLM)对齐技术。主要包括 RLHF、DPO 和 KTO,这些技术的结合不仅简化了模型的训练流程,还提高了模型对齐的性能,稳定性和效率。
UNA 的创新点
UNA 的核心创新点在于通过一个(generalized implicit reward function)将 RLHF、DPO 和 KTO 统一为一个监督学习问题。UNA 的创新体现在以下几个方面:
UNA 的理论基础
UNA 的理论基础源于对 RLHF 目标函数的重新推导。研究人员证明,给定 RLHF 的经典目标函数,最优策略可以通过一个隐式的奖励函数来诱导。该隐式奖励函数是策略模型与参考策略之间的对比结果,通过这个函数,UNA 能够将不同类型的奖励信息整合到统一的框架中进行处理。
实验结果与性能表现
研究人员通过一系列实验验证了 UNA 的有效性和优越性。在多个下游任务中,UNA 相较于传统的 RLHF、DPO 和 KTO 都有显著的性能提升,特别是在训练速度、内存占用和任务表现等方面。以下是实验结果的主要亮点:
总结
UNA 的提出标志着大规模语言模型对齐技术的一个重要进展。通过统一 RLHF、DPO 和 KTO,UNA 不仅简化了模型的训练流程,还提高了训练的稳定性和效率。其通用的隐式奖励函数为模型的对齐提供了一个统一的框架,使得 UNA 在处理多样化反馈数据时具有更强的适应性和灵活性。实验结果表明,UNA 在多个下游任务中表现优越,为语言模型的实际应用提供了新的可能性。未来,随着 UNA 的进一步发展,预期它将在更多的应用场景中展现出强大的能力。