《强化学习的数学原理》第2课-贝尔曼公式(知识点整理¶
约 1013 个字 预计阅读时间 5 分钟
Return的核心作用:策略评估的量化工具¶
(一)Return概念复习¶
- 定义:某条轨迹上所有奖励的“折扣总和”,公式为
Return = r₀ + γr₁ + γ²r₂ + …(γ为折扣率,0≤γ≤1) - 本质:将“轨迹的优劣”转化为可计算的数值,是连接“直观判断”与“数学分析”的纽带
(二)实例验证:3种策略的Return对比¶
-
实验设定
- 环境:统一的网格世界(含目标区域、禁止区域、可通行区域)
- 变量:仅s1状态的策略不同,其他状态策略一致- 策略1:s1→向下走(无禁止区域风险)
- 策略2:s1→向右走(必进禁止区域)
- 策略3:s1→50%概率向右、50%概率向下(随机风险)
-
各策略Return计算(基于折扣回报)
| 策略 | 轨迹特点 | Return计算过程 | 最终结果 |
| ----- | ---------------------- | ------------------------------------------------------------ | -------------- |
| 策略1 | 避禁止区域,直达目标 | 轨迹:s1→s3→s4(目标),后续持续获+1奖励,Return=γ(1 + γ + γ² + …) = γ/(1-γ) | γ/(1-γ) |
| 策略2 | 必进禁止区域,再到目标 | 轨迹:s1→禁止区域(-1)→s4(目标),后续持续获+1奖励,Return=-1 + γ/(1-γ) | -1 + γ/(1-γ) |
| 策略3 | 随机轨迹(50%风险) | 按概率加权:0.5(策略2 Return) + 0.5*(策略1 Return) | -0.5 + γ/(1-γ) | -
结论:Return实现策略量化评估
- 数学关系:Return1 > Return3 > Return2
- 直观对应:策略1最优(无风险)→策略3居中(随机风险)→策略2最差(必进禁止区域)
- 核心价值:Return将“策略好坏”从“主观判断”转化为“客观数值比较”,为后续策略改进提供量化依据
Return的计算方法与Bootstrapping思想¶
(一)两种计算方法对比¶
方法1:基于定义的直接计算¶
- 原理:按轨迹顺序,逐次累加“折扣奖励”
- 示例(4状态循环系统,s1→s2→s3→s4→s1):
- s1的Return(记为v1):
v1 = r1 + γr2 + γ²r3 + γ³r4 + γ⁴r1 + … - s2的Return(记为v2):
v2 = r2 + γr3 + γ²r4 + γ³r1 + … - 缺点:需遍历完整轨迹(无限轨迹时计算复杂)
方法2:基于状态价值依赖的递推计算¶
- 原理:利用“当前状态价值 = 即时奖励 + 折扣×下一个状态价值”的递推关系
- 示例(同4状态系统):
v1 = r1 + γv2(s1的价值=即时奖励r1 + 折扣后s2的价值)v2 = r2 + γv3(s2的价值=即时奖励r2 + 折扣后s3的价值)v3 = r3 + γv4,v4 = r4 + γv1- 优势:无需遍历轨迹,通过状态间的依赖关系简化计算
(二)Bootstrapping(自举)思想¶
- 定义:通过“待求状态价值之间的依赖关系”求解自身的思想,即“用状态价值的集合求解该集合中的每个元素”
- 直观类比:类似“拉着鞋带试图把自己提起来”,看似矛盾,实则通过数学转化可解
- 核心意义:为贝尔曼公式的推导提供核心思路——将无限轨迹的Return计算转化为有限的线性方程组求解
贝尔曼公式的雏形:矩阵向量形式与求解¶
(一)矩阵向量形式推导¶
- 变量定义
- 状态价值向量:v = [v1, v2, v3, v4]^T(4个状态的价值)
- 即时奖励向量:r = [r1, r2, r3, r4]^T(各状态的即时奖励)
- 状态转移矩阵:P(P[i][j]表示从状态i转移到状态j的概率,示例中为循环转移,P = [[0,1,0,0],[0,0,1,0],[0,0,0,1],[1,0,0,0]]) - 公式转化
- 递推关系:v = r + γPv(状态价值 = 即时奖励 + 折扣×状态转移×状态价值)
- 本质:这是“确定性策略+确定性转移”场景下的贝尔曼公式雏形
(二)求解方法(线性代数)¶
- 公式变形:将含v的项移到左侧,得
(I - γP)v = r(I为单位矩阵) - 求解条件:当
||γP|| < 1(γ<1且P为转移矩阵)时,(I - γP)可逆 - 解的形式:
v = (I - γP)⁻¹r(通过矩阵求逆即可得到各状态的价值) - 核心启示:矩阵向量形式将“多个递推方程”整合为“单一线性方程组”,大幅简化求解过程,为后续一般化贝尔曼公式奠定基础
实例应用:网格世界中的贝尔曼公式¶
- 场景回归:基于第1课的网格世界(s1-s9,含目标、禁止区域)
- 贝尔曼公式书写(以特定策略为例)
- s1(向下到s3,即时奖励0):v1 = 0 + γv3
- s2(向右到s4,即时奖励1):v2 = 1 + γv4
- s3(向右到s4,即时奖励0):v3 = 0 + γv4
- ...(其他状态同理,按策略确定转移方向与即时奖励) - 求解方式:上述公式构成线性方程组,可通过手算(小规模)或程序(大规模)求解,直接得到各状态的价值,量化不同状态的优劣
前置基础:核心符号与单步交互过程¶
-
核心符号定义
- 状态(State):S_t(大写,代表随机变量),表示时刻t的状态;s(小写,代表具体取值),表示状态的某个确定值。
- 动作(Action):A_t(大写,随机变量),表示时刻t采取的动作;a(小写,具体取值),表示某一确定动作。
- 奖励(Reward):R_{t+1}(大写,随机变量),表示在时刻t的状态S_t采取动作A_t后,时刻t+1获得的奖励(注:部分场景会简写为R_t,仅为习惯差异,无数学本质区别)。
- 折扣率(Discount Rate):γ(0≤γ≤1),用于计算折扣回报,体现未来奖励的衰减程度。 -
单步交互过程
- 流程:S_t(当前状态)→A_t(采取动作)→R_{t+1}(获得奖励)→S_{t+1}(转移到下一状态)。
- 随机性来源:- 动作选择:由策略(Policy)
π(a|s)决定(状态s下采取动作a的概率)。 - 奖励获取:由奖励概率
p(r|s,a)决定(状态s采取动作a后获得奖励r的概率)。 - 状态转移:由状态转移概率
p(s'|s,a)决定(状态s采取动作a后转移到状态s'的概率)。
- 动作选择:由策略(Policy)
核心概念:State Value(状态价值)¶
(一)定义与数学表达¶
-
前置概念:折扣回报(Discounted Return)
- 定义:从时刻t的状态S_t出发,沿轨迹获得的所有奖励经折扣后的总和,记为G_t(随机变量,因轨迹随机性变化)。
- 公式:G_t = R_{t+1} + γR_{t+2} + γ²R_{t+3} + … = Σ(从k=0到∞)γ^k R_{t+1+k}。 -
State Value的定义
- 本质:折扣回报G_t的条件期望,即从某一确定状态s出发,遵循策略π时,所有可能轨迹的折扣回报的平均值。
- 全称:State-Value Function(状态价值函数),简称为状态价值。
- 数学符号:v_π(s)(下标π表示依赖策略,括号内s表示当前状态)。
- 公式:v_π(s) = E[G_t | S_t = s](E[·]表示期望,S_t = s表示“时刻t状态为确定值s”的条件)。
(二)State Value的核心属性¶
-
双依赖特性
- 依赖状态s:不同状态的初始条件不同,轨迹与回报不同,状态价值也不同(如“靠近目标的状态”价值通常高于“远离目标的状态”)。
- 依赖策略π:不同策略引导的动作选择不同,导致轨迹与回报差异,状态价值也不同(如“最优策略”下的状态价值高于“随机策略”)。
- 补充表示:可写为v(s, π)(明确体现对s和π的依赖),简化后常用v_π(s)。 -
价值含义
- 数值意义:v_π(s)越大,代表从状态s出发遵循策略π时,长期获得的平均回报越高,即该状态“越有价值”。
- 作用:量化状态优劣,为策略评估(判断策略好坏)和策略优化(寻找更优策略)提供核心依据。
三、关键区分:Return(回报)与State Value(状态价值)¶
| 对比维度 | Return(折扣回报) | State Value(状态价值) |
|---|---|---|
| 计算对象 | 单个轨迹(一条具体的交互序列) | 多个轨迹(从同一状态出发的所有可能轨迹) |
| 随机性 | 随机变量(随轨迹不同而变化) | 确定值(对随机回报的平均,消除随机性) |
| 依赖因素 | 仅依赖具体轨迹 | 依赖状态s和策略π |
| 特殊情况 | 当环境与策略均为确定性时(仅一条轨迹),Return等于对应状态的State Value | - |
四、实例验证:3种策略下的s1状态价值计算¶
基于前序课程的“网格世界”场景(含目标区域、禁止区域),3种策略仅s1状态的动作不同,其他状态策略一致,计算s1的v_π(s1):
| 策略 | 策略描述(s1状态动作) | 轨迹特点 | 状态价值计算过程 | 结果 |
|---|---|---|---|---|
| π₁ | 确定性向下走 | 仅1条轨迹(避禁止区域) | 轨迹回报=γ/(1-γ)(前序课程已计算),因仅1条轨迹,期望=回报本身 | v_π₁(s1)=γ/(1-γ) |
| π₂ | 确定性向右走 | 仅1条轨迹(必进禁止区域) | 轨迹回报=-1 + γ/(1-γ),因仅1条轨迹,期望=回报本身 | v_π₂(s1)=-1 + γ/(1-γ) |
| π₃ | 50%概率向右、50%向下 | 2条可能轨迹(随机风险) | 期望=0.5×(π₂轨迹回报) + 0.5×(π₁轨迹回报)=0.5×(-1 + γ/(1-γ)) + 0.5×(γ/(1-γ)) | v_π₃(s1)=-0.5 + γ/(1-γ) |
- 结论:
v_π₁(s1) > v_π₃(s1) > v_π₂(s1),与“策略1最优、策略2最差、策略3居中”的直观判断完全一致,验证了状态价值的量化评估作用。