人工智能知识库

❯

人工智能学习知识

❯

❯

强化学习知识索引

强化学习知识索引

2026年4月18日2分钟阅读

index
强化学习
知识索引

强化学习知识索引

方向概述

强化学习研究智能体如何通过与环境交互学习最优决策策略。本方向涵盖MDP基础、值函数方法、策略梯度方法、深度强化学习及多智能体系统，为通用人工智能的自主决策能力提供核心算法框架。

关键词汇总

| MDP | Bellman方程 | Q学习 | DQN | PPO | TRPO | 策略梯度 | 多智能体 | 时序差分 | 离策略/在策略 |

文档列表

基础理论

MDP与Bellman方程详解 — 马尔可夫决策过程与Bellman方程的理论基础

值函数方法

Q学习深度指南 — Q学习算法详解，包括TD学习与离策略控制
DQN深度指南 — 深度Q网络及其变体算法

策略梯度

策略梯度方法详解 — 策略梯度算法家族

高级算法

PPO深度指南 — 近端策略优化算法

多智能体

多智能体RL详解 — 多智能体强化学习系统

应用场景

RL应用场景 — 强化学习的实际应用案例

关系图谱

强化学习知识索引
关键词汇总
文档列表
基础理论
值函数方法
策略梯度
高级算法
多智能体
应用场景

Created with Quartz v4.5.2 © 2026

GitHub