人工智能知识库

标签: DPO

此标签下有2条笔记。

  • 2026年4月18日

    DPO深度指南

    • RLHF
    • DPO
    • 对齐
    • 大模型训练
    • 偏好优化
  • 2026年4月18日

    LLaMA Factory完整指南

    • LLaMA-Factory
    • 微调框架
    • WebUI
    • 命令行
    • 多模态
    • 分布式训练
    • 数据集配置
    • 高效微调
    • PEFT
    • DPO/RLHF

Created with Quartz v4.5.2 © 2026

  • GitHub