人工智能知识库
Search
搜索
暗色模式
亮色模式
探索
标签: PPO
此标签下有3条笔记。
2026年4月18日
PPO深度指南
强化学习
PPO
TRPO
策略优化
信任域
剪裁
2026年4月18日
PPO深度指南
强化学习
PPO
TRPO
策略优化
信任域
剪裁
2026年4月18日
PPO训练详解
RLHF
PPO
强化学习
大模型训练
奖励模型