RLHF与对齐 (Reinforcement Learning from Human Feedback)

本目录系统梳理大语言模型人类反馈强化学习与对齐技术的完整知识体系,覆盖主流对齐算法(PPO、DPO、KTO、ORPO、Constitutional AI)的原理、偏好数据构建方法与实战指南。


目录结构

对齐算法

算法核心文档类别核心思想
PPOPPO训练详解在线RL基于Reward Model的策略梯度优化
DPODPO深度指南离线对比直接偏好优化,无需显式Reward Model
KTOKTO对齐离线效用基于Kahneman-Tversky效用理论的单向偏好
ORPOORPO对齐混合对比联合训练SFT Loss + Odds Ratio偏好损失
Constitutional AIConstitutional_AI详解自我对齐基于宪法规则的自迭代对齐框架

数据基础

  • 偏好数据构建 — 成对偏好数据的采集策略、质量控制、标注规范与大规模构建方案

核心主题关联

graph LR
    A[预训练模型] --> B[SFT监督微调]
    B --> C[偏好数据构建]
    C --> D[对齐训练]
    D --> E[PPO]
    D --> F[DPO / KTO / ORPO]
    D --> G[Constitutional AI]
    E --> H[对齐后模型]
    F --> H
    G --> H

算法演进路径

  1. PPO → 经典RLHF范式,ChatGPT/InstructGPT采用方案,计算开销大
  2. DPO → 绕过Reward Model,直接用偏好对优化策略,简化流程
  3. KTO → 打破偏好对称性假设,引入认知偏差建模,单向标注更易扩展
  4. ORPO → 统一SFT与偏好训练,避免两阶段分立,训练更稳定
  5. Constitutional AI → 规则驱动自我迭代,绕过人工标注瓶颈

实践注意

  • PPO需要同时训练Reward Model、Value Network、Policy三个组件,GPU显存需求高
  • DPO对数据质量敏感,偏好对噪声会导致策略崩溃
  • 偏好数据构建 是所有对齐算法的上游瓶颈,建议优先投入

相关知识节点