强化学习知识索引
方向概述
强化学习研究智能体如何通过与环境交互学习最优决策策略。本方向涵盖MDP基础、值函数方法、策略梯度方法、深度强化学习及多智能体系统,为通用人工智能的自主决策能力提供核心算法框架。
关键词汇总
| MDP | Bellman方程 | Q学习 | DQN | PPO | TRPO | 策略梯度 | 多智能体 | 时序差分 | 离策略/在策略 |
文档列表
基础理论
- MDP与Bellman方程详解 — 马尔可夫决策过程与Bellman方程的理论基础
值函数方法
策略梯度
- 策略梯度方法详解 — 策略梯度算法家族
高级算法
- PPO深度指南 — 近端策略优化算法
多智能体
- 多智能体RL详解 — 多智能体强化学习系统
应用场景
- RL应用场景 — 强化学习的实际应用案例