人工智能知识库
Search
搜索
暗色模式
亮色模式
探索
Home
❯
人工智能工具实操
❯
大模型调用
❯
RLHF与对齐
文件夹: 人工智能工具实操/大模型调用/RLHF与对齐
此文件夹下有7条笔记。
2026年4月18日
Constitutional_AI详解
Constitutional_AI
CAI
对齐
安全AI
Anthropic
宪章驱动学习
2026年4月18日
DPO深度指南
RLHF
DPO
对齐
大模型训练
偏好优化
2026年4月18日
KTO对齐
RLHF
KTO
对齐
Kahneman-Tversky优化
人类偏好
2026年4月18日
ORPO对齐
RLHF
ORPO
对齐
比值比优化
单阶段训练
大模型训练
2026年4月18日
PPO训练详解
RLHF
PPO
强化学习
大模型训练
奖励模型
2026年4月18日
RLHF与对齐索引
index
RLHF
对齐
LLM
2026年4月18日
偏好数据构建
偏好数据
RLHF
数据标注
对齐训练
合成数据