人工智能知识库

标签: 强化学习

此标签下有15条笔记。

  • 2026年4月24日

    Actor-Critic算法深度指南

    • 强化学习
    • Actor-Critic
    • A2C
    • A3C
    • GAE
    • 策略梯度
  • 2026年4月24日

    分层强化学习Hierarchical RL

    • 强化学习
    • 分层强化学习
    • Options框架
    • FeUdal-Networks
    • HIRO
    • 课程学习
  • 2026年4月24日

    基于模型的RL与World Model

    • 强化学习
    • Model-based-RL
    • World-Model
    • Dreamer
    • MuZero
    • 模型预测控制
  • 2026年4月24日

    强化学习调参与工程实战

    • 强化学习
    • 调参
    • 工程实践
    • 课程学习
    • 分布式训练
  • 2026年4月24日

    离线强化学习Offline RL详解

    • 强化学习
    • Offline-RL
    • CQL
    • IQL
    • 离线策略学习
    • D4RL
  • 2026年4月18日

    DQN深度指南

    • 强化学习
    • 深度强化学习
    • DQN
    • 深度Q网络
    • 经验回放
    • 目标网络
  • 2026年4月18日

    MDP与Bellman方程详解

    • 强化学习
    • 马尔可夫决策过程
    • Bellman方程
    • 动态规划
    • 理论基础
  • 2026年4月18日

    PPO深度指南

    • 强化学习
    • PPO
    • TRPO
    • 策略优化
    • 信任域
    • 剪裁
  • 2026年4月18日

    Q学习深度指南

    • 强化学习
    • Q学习
    • TD学习
    • 无模型学习
    • 时序差分
  • 2026年4月18日

    强化学习知识索引

    • index
    • 强化学习
    • 知识索引
  • 2026年4月18日

    多智能体RL详解

    • 强化学习
    • 多智能体
    • 博弈论
    • 协作
    • 竞争
    • QMIX
    • COMA
  • 2026年4月18日

    RL应用场景

    • 强化学习
    • 应用
    • 游戏AI
    • 机器人
    • 自动驾驶
    • 推荐系统
    • 量化交易
  • 2026年4月18日

    策略梯度方法详解

    • 强化学习
    • 策略梯度
    • Actor-Critic
    • A3C
    • REINFORCE
    • 策略优化
  • 2026年4月18日

    机器学习

    • 机器学习
    • 监督学习
    • 无监督学习
    • 强化学习
    • 算法
  • 2026年4月18日

    PPO训练详解

    • RLHF
    • PPO
    • 强化学习
    • 大模型训练
    • 奖励模型

Created with Quartz v4.5.2 © 2026

  • GitHub