《强化学习的数学原理》第1课-基本概念知识点整理¶

约 2694 个字预计阅读时间 13 分钟

核心实例：网格世界（grid-world）¶

世界构成：由网格组成，包含3类网格
- 可进入区域（白色）：机器人可正常移动进入
- 禁止区域（黄色）：课程中定义为「可进入但会受惩罚」（比「物理不可进入」更通用，可能出现“冒险走禁区域抄近路”的有趣行为）
- 目标区域（target area）：机器人需抵达的最终目标
- 边界：机器人无法超越，撞边界后会弹回原状态
机器人规则：仅能在相邻网格（上下左右）移动，不可斜向移动
核心任务：找到从起点到目标区域的「优质路径」，直观判断标准包括：
- 避免进入禁止区域
- 减少无意义拐弯（如反复往返）
- 不尝试超越边界

三、强化学习核心基础概念¶

（一）状态（State）与状态空间（State Space）¶

状态（State）
- 定义：描述智能体（agent）相对于环境的状态（status）
- 网格世界实例：即机器人的「位置」，用s₁、s₂…s₉表示（每个符号对应二维平面的(x,y)坐标）
- 扩展场景：复杂问题中，状态还可能包含速度、加速度等额外信息
状态空间（State Space）
- 定义：所有可能状态的集合（本质是数学中的“集合”，非复杂线性空间）
- 表示符号：用花体「𝓢」表示，形式为𝓢 = {s₁, s₂, ..., sₙ}（n为状态总数，可从上下文推断范围）

（二）动作（Action）与动作空间（Action Space）¶

动作（Action）
- 定义：智能体在某一状态下可采取的具体行为
- 网格世界实例：共5种动作，分别为a₁（向上）、a₂（向右）、a₃（向下）、a₄（向左）、a₅（原地不动）
动作空间（Action Space）
- 定义：某一状态下所有可能动作的集合
- 表示符号：用花体「𝓐」表示，形式为𝓐(sᵢ)（括号标注sᵢ，强调「动作空间与状态相关」，不同状态的可执行动作可能不同）

（三）状态转移（State Transition）¶

定义：智能体在某一状态下采取某一动作后，从当前状态移动到下一状态的过程
网格世界实例：
- 例1：在s₁状态采取a₂（向右）动作，下一状态为s₂
- 例2：在s₁状态采取a₁（向上）动作，因撞边界弹回，下一状态仍为s₁
- 例3：在s₅（禁区域相邻）采取a₂（向右）动作，下一状态为s₆（禁区域，会受惩罚）
表示方式：简单场景可用「表格」表示（行=状态，列=动作，单元格=下一状态），但仅适用于「确定性转移」（无随机因素）

（四）状态转移概率（State Transition Probability）¶

定义：用「条件概率」描述状态转移的可能性，可处理「随机性转移」（比表格更通用）
表示符号：p(s' | s, a)，含义为“在状态s下采取动作a，转移到状态s'的概率”
实例：
- 确定性转移：p(s₂ | s₁, a₂) = 1（s₁采取a₂必到s₂），p(sᵢ | s₁, a₂) = 0（i≠2时概率为0）
- 随机性转移（如考虑风的影响）：p(s₂ | s₁, a₂) = 0.5，p(s₅ | s₁, a₂) = 0.5（s₁采取a₂，50%到s₂、50%到s₅）

（五）策略（Policy）¶

定义：指导智能体“在某一状态下应采取何种动作”的规则，是强化学习的核心独有概念
直观表示：用箭头标注每个状态的推荐动作（如s₁箭头向右，表示推荐a₂动作），基于策略可生成「路径（path）」或「轨迹（trajectory）」（如从起点按策略动作依次转移到目标的过程）
数学表示：用「条件概率」π(a | s)描述，含义为“在状态s下采取动作a的概率”，满足「某一状态下所有动作概率和为1」
分类：
- 确定性策略：某一动作概率为1，其余为0（如π(a₂ | s₁) = 1，π(a₁,a₃,a₄,a₅ | s₁) = 0）
- 随机性策略：多个动作有非零概率（如π(a₂ | s₁) = 0.5，π(a₃ | s₁) = 0.5，其余为0）
工程实现：
- 表示：用数组/矩阵存储（行=状态，列=动作，单元格=动作概率）
- 执行（随机性策略）：从[0,1]均匀随机采样x，按概率区间选择动作（如x∈[0,0.5]选a₂，x∈[0.5,1]选a₃）

（六）Reward（奖励）¶

定义与本质
- 本质：智能体（agent）在某一状态采取动作后获得的「实数标量」，是人机交互的核心接口（引导智能体行为）
- 含义：正数表示「鼓励该行为」，负数表示「惩罚该行为」，0表示「无惩罚（一定程度上隐含鼓励）」
- 灵活性：可通过数学转换调整正负含义（如用正数表惩罚、负数表鼓励），核心是智能体目标与奖励方向一致（最大化鼓励/最小化惩罚）
网格世界实例设计
- 边界惩罚：试图超越边界（如s1采取a1向上），奖励r_bound = -1
- 禁区域惩罚：进入禁止区域（如s5采取a2向右到s6），奖励r_forbid = -1
- 目标奖励：进入目标区域（如到s9），奖励r_target = +1
- 其他行为：正常移动（如s1采取a2向右到s2）、原地不动，奖励均为0
关键注意点
- 依赖对象：Reward仅依赖「当前状态+当前动作」，与「下一个状态」无关
- 实例：s1采取a1（撞边界，下状态s1，奖励-1）与s1采取a5（原地不动，下状态s1，奖励0），下状态相同但奖励不同，因动作含义不同
- 表示方式：
- 表格形式：行=状态，列=动作，单元格=奖励，仅适用于「确定性奖励」（某状态-动作对应固定奖励）
- 概率形式：用条件概率p(r | s, a)描述，可处理「随机性奖励」（如努力学习可能获得不同正奖励），例：p(r=-1 | s1, a1) = 1（确定性）、p(r=2 | s, a)=0.6, p(r=1 | s, a)=0.4（随机性）

（六）Trajectory（轨迹）¶

定义：智能体与环境交互形成的「状态-动作-奖励」序列链，即s₀ →(a₀,r₀) s₁ →(a₁,r₁) s₂ →…→sₙ
网格世界实例：从s1出发，s1（a2,0）→s2（a3,0）→s5（a3,0）→s8（a2,1）→s9，形成完整轨迹
属性：轨迹长度可有限（如到目标后停止）或无限（如目标区域持续执行策略）

（七）Return（回报）¶

定义：某条轨迹上所有奖励的「总和」，是评估轨迹/对应策略好坏的核心指标
- 公式（有限轨迹）：Return = r₀ + r₁ + r₂ + … + rₙ
网格世界实例对比
- 优质轨迹（避禁区域）：s1→s2→s5→s8→s9，奖励序列[0,0,0,1]，Return=1
- 较差轨迹（进禁区域）：s1→s4→s5→s6（禁区域，-1）→s9，奖励序列[0,0,-1,1]，Return=0
- 结论：Return越大，轨迹/策略越优，实现「直观判断→数学量化」的转换
Discounted Return（折扣回报）
核心问题：无限轨迹（如目标区域持续获得+1奖励）的普通Return会「发散到无穷」，无法量化评估
定义：引入折扣率γ（0 ≤ γ ≤ 1），对未来奖励按「时间步次方」衰减，公式为：
- Discounted Return = r₀ + γr₁ + γ²r₂ + γ³r₃ + …
折扣率γ的作用
- 收敛性：当γ < 1时，无限奖励序列和收敛为有限值（等比数列求和：S = r₀ + γr₁ + … = r₀ + γ*(r₁ + γr₂ + …)，若后续奖励恒定为r，总和为r/(1-γ)）
- 行为引导：
- γ→0：智能体「近视」，仅关注当前/近期奖励（如γ=0.1，未来3步奖励衰减至0.001，影响可忽略）
- γ→1：智能体「远视」，重视长远奖励（如γ=0.99，未来30步奖励仍有0.99³⁰≈0.74，影响显著）
网格世界实例计算：目标区域持续获得+1奖励，轨迹后半段为s9（a5,1）→s9（a5,1）→…，折扣回报为：
- 假设前3步奖励为0，从第4步开始为1：0 + 0 + 0 + γ³*1 + γ⁴*1 + … = γ³/(1-γ)（γ < 1时收敛）

（八）Episode（回合）¶

定义：有「终止状态（terminal state）」的有限轨迹，即智能体从初始状态出发，到终止状态后停止，形成一个回合（如游戏通关、机器人到达目标后停止）
对应任务：Episodic Tasks（回合制任务），例：网格世界到达目标后停止

Continuing Tasks（持续型任务）
- 定义：无终止状态，智能体与环境交互「永久持续」的任务（现实中无绝对永久，需近似），例：机器人长期巡逻、持续优化的推荐系统
两种任务的统一方法
- 方法1：将终止状态设为「吸收状态（absorbing state）」
- 规则：进入吸收状态后，无论采取何种动作，均停留在该状态，且后续奖励全为0（如目标区域仅允许原地不动，奖励0）
- 方法2：将终止状态视为「普通状态」
- 规则：目标区域有正常策略（如策略优则持续停留获+1，策略差则可能跳出），无需特殊处理，更具一般性（课程采用此方法）

核心框架：Markov Decision Process（MDP，马尔可夫决策过程）¶

（一）MDP的核心要素¶

MDP是强化学习的统一数学框架，包含5个核心要素，记为MDP = (𝓢, 𝓐, 𝓡, p, π)，各要素含义如下：
| 要素符号 | 要素名称 | 定义与说明 |
| -------- | -------- | ------------------------------------------------------------ |
| 𝓢 | 状态空间 | 所有可能状态的集合，如网格世界中𝓢 = {s₁, s₂, …, s₉} |
| 𝓐 | 动作空间 | 每个状态对应的可执行动作集合，与状态相关，记为𝓐(s)，如𝓐(s₁) = {a₁,a₂,a₃,a₄,a₅} |
| 𝓡 | 奖励空间 | 所有可能奖励的集合，如网格世界中𝓡 = {-1, 0, +1} |
| p | 概率分布 | 包含状态转移概率p(s' | s, a)和奖励概率p(r | s, a)，描述环境随机性 |
| π | 策略 | 状态到动作的映射，用π(a | s)表示状态s下采取动作a的概率，指导智能体行为 |

（二）MDP的核心性质：Markov Property（马尔可夫性质）¶

定义：「无记忆性」——智能体下一个状态的概率仅依赖「当前状态+当前动作」，与「历史状态/动作」无关，公式表达为：
- 状态转移：p(sₜ₊₁ | sₜ, aₜ) = p(sₜ₊₁ | s₀,a₀,s₁,a₁,…,sₜ,aₜ)
- 奖励：p(rₜ | sₜ, aₜ) = p(rₜ | s₀,a₀,s₁,a₁,…,sₜ,aₜ)
含义：简化问题复杂度，无需存储历史交互信息，仅需关注当前状态与动作即可预测未来

（三）MDP与Markov Process（马尔可夫过程）的关系¶

Markov Process（MP）：仅包含「状态空间𝓢」和「状态转移概率p」，无动作与策略，是无决策的状态演化过程
MDP与MP的转化：当MDP中的策略π固定时，策略与环境融合，动作选择由π确定，MDP退化为MP（即固定策略下的状态转移过程）
实例：网格世界中固定策略π（s1→a2, s2→a3,…），状态转移仅依赖当前状态与π，形成MP