强化学习知识索引

方向概述

强化学习研究智能体如何通过与环境交互学习最优决策策略。本方向涵盖MDP基础、值函数方法、策略梯度方法、深度强化学习及多智能体系统,为通用人工智能的自主决策能力提供核心算法框架。

关键词汇总

| MDP | Bellman方程 | Q学习 | DQN | PPO | TRPO | 策略梯度 | 多智能体 | 时序差分 | 离策略/在策略 |


文档列表

基础理论

值函数方法

策略梯度

高级算法

多智能体

应用场景