人工智能知识库

标签: DPO

此标签下有3条笔记。

2026年4月24日
SFT监督微调与RLHF人类反馈强化学习
2026年4月18日
DPO深度指南
2026年4月18日
LLaMA Factory完整指南

Created with Quartz v4.5.2 © 2026

GitHub