第3课-贝尔曼最优公式(最优策略和公式推导)知识点整理
一、最优策略的定义与核心问题
1. 策略优劣的比较标准
若存在两个策略π 1 \pi_1 π 1 和π 2 \pi_2 π 2 ,对于所有状态s s s ,π 1 \pi_1 π 1 对应的状态价值v π 1 ( s ) v_{\pi_1}(s) v π 1 ( s ) 均大于π 2 \pi_2 π 2 对应的状态价值v π 2 ( s ) v_{\pi_2}(s) v π 2 ( s ) ,则称π 1 \pi_1 π 1 优于π 2 \pi_2 π 2 。
最优策略π ∗ \pi^* π ∗ 的定义:对任意状态s s s 和任意其他策略π \pi π ,均满足v π ∗ ( s ) ≥ v π ( s ) v_{\pi^*}(s) \geq v_{\pi}(s) v π ∗ ( s ) ≥ v π ( s ) ,即π ∗ \pi^* π ∗ 在所有状态下的价值都不低于其他任何策略。
2. 最优策略的四大核心问题
存在性 :是否存在满足上述定义的最优策略π ∗ \pi^* π ∗ ?(理想中“全状态优于其他策略”的策略是否真实存在?)
唯一性 :最优策略是唯一的,还是存在多个不同但均满足“最优”条件的策略?
策略类型 :最优策略是确定性策略(某状态下固定选择一个动作),还是随机性策略(某状态下按概率选择多个动作)?
求解方法 :如何通过数学工具推导并得到最优策略π ∗ \pi^* π ∗ ?(核心问题,需通过贝尔曼最优公式解答)
二、贝尔曼最优公式
1. 公式形式与核心改动
贝尔曼最优公式是在普通贝尔曼公式 (依赖给定策略π \pi π )的基础上,增加了“策略最大化”操作,具体形式如下:
公式类型 表达式核心逻辑 关键区别 普通贝尔曼公式 v π ( s ) = E π [ r + γ v π ( s ′ ) ∣ s ] v_{\pi}(s) = \mathbb{E}_{\pi}\left[ r + \gamma v_{\pi}(s') \mid s \right] v π ( s ) = E π [ r + γ v π ( s ′ ) ∣ s ] 策略π \pi π 是给定的 ,仅需计算该策略下的状态价值v π ( s ) v_{\pi}(s) v π ( s ) 贝尔曼最优公式 v ∗ ( s ) = max π E π [ r + γ v ∗ ( s ′ ) ∣ s ] v_*(s) = \max_{\pi} \mathbb{E}_{\pi}\left[ r + \gamma v_*(s') \mid s \right] v ∗ ( s ) = max π E π [ r + γ v ∗ ( s ′ ) ∣ s ] 策略π \pi π 是待优化的 ,需先找到使价值最大的π \pi π ,再计算最优状态价值v ∗ ( s ) v_*(s) v ∗ ( s )
符号说明:v ∗ ( s ) v_*(s) v ∗ ( s ) 表示“最优状态价值”,即最优策略π ∗ \pi^* π ∗ 对应的状态价值;max π \max_{\pi} max π 表示对所有可能的策略取最大值。
简化表达:公式中期望项可缩写为动作价值q ( s , a ) q(s,a) q ( s , a ) (即状态s s s 下选择动作a a a 的价值),因此最优公式可进一步简化为v ∗ ( s ) = max a q ( s , a ) v_*(s) = \max_a q(s,a) v ∗ ( s ) = max a q ( s , a ) 。
2. 已知条件与求解目标
类别 具体内容 已知条件 1. 状态转移概率p ( s ′ ∣ s , a ) p(s' \mid s,a) p ( s ′ ∣ s , a ) (系统模型参数,描述“状态s s s 选动作a a a 后转移到s ′ s' s ′ ”的概率) 2. 即时奖励r r r (环境反馈,如“选动作a a a 后获得的收益/惩罚”) 3. 折扣因子γ \gamma γ (控制未来奖励的权重,0 ≤ γ ≤ 1 0 \leq \gamma \leq 1 0 ≤ γ ≤ 1 ) 求解目标 1. 最优状态价值v ∗ ( s ) v_*(s) v ∗ ( s ) (所有状态下的最优价值向量) 2. 最优策略π ∗ \pi^* π ∗ (使v ( s ) v(s) v ( s ) 达到v ∗ ( s ) v_*(s) v ∗ ( s ) 的策略)
3. 公式的“优美性”与“复杂性”
优美性 :形式简洁,仅通过“max π \max_{\pi} max π ”操作,就将“最优策略”与“最优状态价值”的关系刻画清楚,统一了“策略优化”与“价值计算”两个问题。
复杂性 :
嵌套优化:公式右侧包含“对策略π \pi π 求最大值”的优化问题,需先解决优化问题才能计算v ∗ ( s ) v_*(s) v ∗ ( s ) ;
双未知量:表面上需同时求解v ∗ ( s ) v_*(s) v ∗ ( s ) (价值向量)和π ∗ \pi^* π ∗ (策略),初学者易困惑“如何用一个公式解两个未知量”。
三、贝尔曼最优公式的求解思路(核心推导)
1. 求解逻辑:分两步拆解“双未知量”问题
贝尔曼最优公式的求解核心是先固定价值求策略,再代入策略求价值 ,通过“分步拆解”解决“双未知量”困境,具体以两个例子说明:
目标:
v ( s ) = max π ∑ a π ( a ∣ s ) ( ∑ r ( p ∣ s , a ) r + γ ∑ s ′ p ( s ′ ∣ s , a ) v ( s ′ ) ) , ∀ s ∈ S = max π ∑ a π ( a ∣ s ) q ( s , a ) v(s) = \max_\pi \sum_a \pi(a|s)(\sum_r (p|s,a)r+\gamma \sum_{s'}p(s'|s,a)v(s')),\forall s \in \mathcal{S} \\ = \max_\pi \sum_a \pi(a|s)q(s,a) v ( s ) = max π ∑ a π ( a ∣ s ) ( ∑ r ( p ∣ s , a ) r + γ ∑ s ′ p ( s ′ ∣ s , a ) v ( s ′ )) , ∀ s ∈ S = max π ∑ a π ( a ∣ s ) q ( s , a )
例1:How to solve 2 unknowns from 1 equation
假设存在公式x = max a ( 2 x − 1 − a 2 ) x = \max_a (2x - 1 - a^2) x = max a ( 2 x − 1 − a 2 ) ,需求解x x x (对应v ∗ ( s ) v_*(s) v ∗ ( s ) )和a a a (对应策略π ∗ \pi^* π ∗ 的动作选择):
第一步:固定x x x ,求最优a a a :
对a a a 求最大值,因− a 2 -a^2 − a 2 的最大值在a = 0 a=0 a = 0 时取得(此时− a 2 = 0 -a^2=0 − a 2 = 0 ),因此max a ( 2 x − 1 − a 2 ) = 2 x − 1 \max_a (2x - 1 - a^2) = 2x - 1 max a ( 2 x − 1 − a 2 ) = 2 x − 1 ,最优a = 0 a=0 a = 0 。
第二步:代入a = 0 a=0 a = 0 ,求x x x :
公式变为x = 2 x − 1 x = 2x - 1 x = 2 x − 1 ,解得x = 1 x=1 x = 1 。
最终结果:x = 1 x=1 x = 1 (最优价值),a = 0 a=0 a = 0 (最优动作)。
例2 How to solve max π ∑ a π ( a ∣ s ) q ( s , a ) \max_{\pi} \sum_{a} \pi(a|s)q(s,a) max π ∑ a π ( a ∣ s ) q ( s , a )
Suppose q 1 , q 2 , q 3 ∈ R q_1, q_2, q_3 \in \mathbb{R} q 1 , q 2 , q 3 ∈ R are given. Find c 1 ∗ , c 2 ∗ , c 3 ∗ c_1^*, c_2^*, c_3^* c 1 ∗ , c 2 ∗ , c 3 ∗ solving
max c 1 , c 2 , c 3 c 1 q 1 + c 2 q 2 + c 3 q 3 . \max_{c_1,c_2,c_3} c_1q_1 + c_2q_2 + c_3q_3. c 1 , c 2 , c 3 max c 1 q 1 + c 2 q 2 + c 3 q 3 .
where c 1 + c 2 + c 3 = 1 c_1 + c_2 + c_3 = 1 c 1 + c 2 + c 3 = 1 and c 1 , c 2 , c 3 ≥ 0 c_1, c_2, c_3 \geq 0 c 1 , c 2 , c 3 ≥ 0 .
Without loss of generality, suppose q 3 ≥ q 1 , q 2 q_3 \geq q_1, q_2 q 3 ≥ q 1 , q 2 . Then, the optimal solution is c 3 ∗ = 1 c_3^* = 1 c 3 ∗ = 1 and c 1 ∗ = c 2 ∗ = 0 c_1^* = c_2^* = 0 c 1 ∗ = c 2 ∗ = 0 . That is because for any c 1 , c 2 , c 3 c_1, c_2, c_3 c 1 , c 2 , c 3
q 3 = ( c 1 + c 2 + c 3 ) q 3 = c 1 q 3 + c 2 q 3 + c 3 q 3 ≥ c 1 q 1 + c 2 q 2 + c 3 q 3 . q_3 = (c_1 + c_2 + c_3)q_3 = c_1q_3 + c_2q_3 + c_3q_3 \geq c_1q_1 + c_2q_2 + c_3q_3. q 3 = ( c 1 + c 2 + c 3 ) q 3 = c 1 q 3 + c 2 q 3 + c 3 q 3 ≥ c 1 q 1 + c 2 q 2 + c 3 q 3 .
强化学习场景(映射到贝尔曼最优公式)
假设某状态s s s 下有5个可能动作a 1 ∼ a 5 a_1 \sim a_5 a 1 ∼ a 5 ,对应动作价值q ( s , a 1 ) ∼ q ( s , a 5 ) q(s,a_1) \sim q(s,a_5) q ( s , a 1 ) ∼ q ( s , a 5 ) ,需求解π ∗ ( s , a ) \pi^*(s,a) π ∗ ( s , a ) (策略)和v ∗ ( s ) v_*(s) v ∗ ( s ) (最优价值):
第一步:固定v ∗ ( s ′ ) v_*(s') v ∗ ( s ′ ) ,求最优π \pi π :
动作价值q ( s , a ) = r + γ ∑ s ′ p ( s ′ ∣ s , a ) v ∗ ( s ′ ) q(s,a) = r + \gamma \sum_{s'} p(s' \mid s,a) v_*(s') q ( s , a ) = r + γ ∑ s ′ p ( s ′ ∣ s , a ) v ∗ ( s ′ ) ,若暂时固定v ∗ ( s ′ ) v_*(s') v ∗ ( s ′ ) (可先设初始值),则q ( s , a ) q(s,a) q ( s , a ) 可计算。
最优策略需满足:对“使q ( s , a ) q(s,a) q ( s , a ) 最大的动作a ∗ a^* a ∗ ”,取π ∗ ( s , a ∗ ) = 1 \pi^*(s,a^*) = 1 π ∗ ( s , a ∗ ) = 1 (确定性选择该动作);对其他动作a ≠ a ∗ a \neq a^* a = a ∗ ,取π ∗ ( s , a ) = 0 \pi^*(s,a) = 0 π ∗ ( s , a ) = 0 。
此时max π E π [ q ( s , a ) ] = max a q ( s , a ) \max_{\pi} \mathbb{E}_{\pi}[q(s,a)] = \max_a q(s,a) max π E π [ q ( s , a )] = max a q ( s , a ) (即最优动作对应的动作价值)。
第二步:代入最优π \pi π ,求v ∗ ( s ) v_*(s) v ∗ ( s ) :
最优状态价值v ∗ ( s ) = max a q ( s , a ) v_*(s) = \max_a q(s,a) v ∗ ( s ) = max a q ( s , a ) ,即“最优动作的动作价值”就是该状态的最优状态价值。
Inspired by the above example, considering that ∑ a π ( a ∣ s ) = 1 \sum_a \pi(a|s) = 1 ∑ a π ( a ∣ s ) = 1 ,
we have max π ∑ a π ( a ∣ s ) q ( s , a ) ⏟ = max a ∈ A ( s ) q ( s , a ) ⏟ , \underbrace{\max_{\pi} \sum_a \pi(a|s) q(s, a)} = \underbrace{\max_{a \in \mathcal{A}(s)} q(s, a)}, π max a ∑ π ( a ∣ s ) q ( s , a ) = a ∈ A ( s ) max q ( s , a ) ,
where the optimality is achieved when π ( a ∣ s ) = { 1 a = a ∗ 0 a ≠ a ∗ \pi(a|s) = \begin{cases} 1 & a = a^* \\ 0 & a \neq a^* \end{cases} π ( a ∣ s ) = { 1 0 a = a ∗ a = a ∗
where a ∗ = arg max a q ( s , a ) a^* = \arg \max_a q(s, a) a ∗ = arg max a q ( s , a ) .
2. 核心结论
贝尔曼最优公式的求解本质是“贪心策略 ”:在每个状态下,选择能使“即时奖励+未来最优价值”最大的动作,该动作对应的策略即为局部最优策略,所有状态的局部最优策略构成全局最优策略π ∗ \pi^* π ∗ 。
最优策略的类型:通过上述推导可知,最优策略可表示为确定性策略 (选择q ( s , a ) q(s,a) q ( s , a ) 最大的动作),即使存在多个动作的q ( s , a ) q(s,a) q ( s , a ) 相等,也可通过“确定性选择其中任意一个”实现最优,无需随机性策略。
四、公式与最优策略的关联
贝尔曼最优公式是连接“最优价值”与“最优策略”的桥梁:
若已知最优状态价值v ∗ ( s ) v_*(s) v ∗ ( s ) ,可通过q ( s , a ) = r + γ ∑ s ′ p ( s ′ ∣ s , a ) v ∗ ( s ′ ) q(s,a) = r + \gamma \sum_{s'} p(s' \mid s,a) v_*(s') q ( s , a ) = r + γ ∑ s ′ p ( s ′ ∣ s , a ) v ∗ ( s ′ ) 计算所有动作价值,再选择q ( s , a ) q(s,a) q ( s , a ) 最大的动作,得到最优策略π ∗ \pi^* π ∗ ;
若已知最优策略π ∗ \pi^* π ∗ ,可通过普通贝尔曼公式v ∗ ( s ) = E π ∗ [ r + γ v ∗ ( s ′ ) ∣ s ] v_*(s) = \mathbb{E}_{\pi^*}\left[ r + \gamma v_*(s') \mid s \right] v ∗ ( s ) = E π ∗ [ r + γ v ∗ ( s ′ ) ∣ s ] 计算最优状态价值v ∗ ( s ) v_*(s) v ∗ ( s ) 。
第3课-贝尔曼最优公式(公式求解以及最优性)知识点整理
一、贝尔曼最优公式的简化形式
核心转化逻辑 :将贝尔曼最优公式中右侧的m a x π maxπ ma x π (对策略的最大化)定义为函数f ( v ) f(v) f ( v ) ,其中v v v 为状态值函数(State Value)。
关键前提:固定v v v 后,可求解出对应策略π π π ,最终最优值仅与v v v 相关,因此m a x π maxπ ma x π 的结果可表示为v v v 的函数f ( v ) f(v) f ( v ) 。
简化后公式:v = f ( v ) v = f(v) v = f ( v ) (f ( v ) f(v) f ( v ) 为向量,向量中对应状态s s s 的元素即该状态下的最优值计算项)。
f ( v ) f(v) f ( v ) 的向量属性 :f ( v ) f(v) f ( v ) 的每个元素对应一个状态s s s ,描述该状态在最优策略下的价值,需结合状态转移概率、奖励等强化学习核心要素计算(承接前序课程中贝尔曼公式的基础定义)。
二、核心数学工具:收缩映射定理(Contraction Mapping Theorem)
(一)前置基础概念
不动点(Fixed Point)
定义:若在集合X X X 上存在点x x x ,映射(函数)f f f 满足f ( x ) = x f(x) = x f ( x ) = x ,则x x x 称为f f f 的不动点。
直观解释:点x x x 经过函数f f f 映射后仍回到自身,“位置不变”。
收缩映射(Contraction Mapping / Contractive Function)
定义:对任意两个点x 1 x_1 x 1 、x 2 x_2 x 2 ,若存在常数γ < 1 \gamma < 1 γ < 1 (收缩因子),使得∥ f ( x 1 ) − f ( x 2 ) ∥ ≤ γ ⋅ ∥ x 1 − x 2 ∥ \|f(x_1) - f(x_2)\| \leq \gamma \cdot \|x_1 - x_2\| ∥ f ( x 1 ) − f ( x 2 ) ∥ ≤ γ ⋅ ∥ x 1 − x 2 ∥ (∥ ⋅ ∥ \|\cdot\| ∥ ⋅ ∥ 表示范数,衡量“距离”),则f f f 为收缩映射。
直观解释:任意两点经过f f f 映射后,它们的“距离”会被缩小(收缩因子γ γ γ 控制缩小比例),因此函数具有“压缩”特性。
示例验证
案例 不动点验证 收缩映射验证 标量函数f ( x ) = 0.5 x f(x) = 0.5x f ( x ) = 0.5 x f ( 0 ) = 0.5 × 0 = 0 f(0) = 0.5 \times 0 = 0 f ( 0 ) = 0.5 × 0 = 0 ,故x = 0 x=0 x = 0 是不动点对任意x 1 x_1 x 1 、x 2 x_2 x 2 ,∥ 0.5 x 1 − 0.5 x 2 ∥ = 0.5 × ∥ x 1 − x 2 ∥ \|0.5x_1 - 0.5x_2\| = 0.5 \times \|x_1 - x_2\| ∥0.5 x 1 − 0.5 x 2 ∥ = 0.5 × ∥ x 1 − x 2 ∥ ,取γ = 0.5 < 1 \gamma=0.5 < 1 γ = 0.5 < 1 ,满足定义 向量函数f ( x ) = A x f(x) = Ax f ( x ) = A x (A A A 为矩阵) f ( 0 ) = A × 0 = 0 f(0) = A×0 = 0 f ( 0 ) = A × 0 = 0 ,故x = 0 x=0 x = 0 是不动点若矩阵A A A 的范数$
(二)收缩映射定理的核心结论
若f f f 是收缩映射,则方程x = f ( x ) x = f(x) x = f ( x ) 满足以下3个关键性质(为贝尔曼最优公式求解提供理论保障):
存在性(Existence) :必然存在至少一个不动点x ∗ x_* x ∗ ,使得f ( x ∗ ) = x ∗ f(x_*) = x_* f ( x ∗ ) = x ∗ (无需关注f f f 的具体表达式,仅需确认其为收缩映射)。
唯一性(Uniqueness) :上述不动点x ∗ x_* x ∗ 是唯一的(排除“多解”问题,确保最优值的确定性)。
可解性(Solvability) :可通过迭代算法求解x ∗ x_* x ∗ ,迭代公式为x k + 1 = f ( x k ) x_{k+1} = f(x_k) x k + 1 = f ( x k ) (x 0 x_0 x 0 为初始值):
收敛性:当迭代次数k → ∞ k→∞ k → ∞ 时,x k x_k x k 会收敛到不动点x ∗ x_* x ∗ ;
实用性:实际计算中无需迭代至无穷次,迭代若干步后即可得到满足精度的近似解;
收敛速度:指数级收敛(收敛速度快,计算效率高)。
[!INFO] # 压缩映射定理的证明
部分1:证明序列 { x k } k = 1 ∞ \{x_k\}_{k=1}^\infty { x k } k = 1 ∞ (其中 x k = f ( x k − 1 ) x_k = f(x_{k-1}) x k = f ( x k − 1 ) )收敛
证明依赖柯西序列 的概念:若序列 x 1 , x 2 , … x_1, x_2, \dots x 1 , x 2 , … 满足“对任意小的 ε > 0 \varepsilon > 0 ε > 0 ,存在整数 N N N ,使得对所有 m , n > N m, n > N m , n > N ,有 ∥ x m − x n ∥ < ε \|x_m - x_n\| < \varepsilon ∥ x m − x n ∥ < ε ”,则称该序列为柯西序列。其直观含义是“N N N 之后的所有元素都足够接近”。柯西序列的核心性质是:柯西序列必收敛到一个极限 ,这一性质是证明的关键。
注意:仅满足“相邻项差趋于0(x n + 1 − x n → 0 x_{n+1} - x_n \to 0 x n + 1 − x n → 0 )”不足以说明是柯西序列(例如 x n = n x_n = \sqrt{n} x n = n ,虽 x n + 1 − x n → 0 x_{n+1} - x_n \to 0 x n + 1 − x n → 0 ,但 x n = n x_n = \sqrt{n} x n = n 发散)。
接下来证明 { x k = f ( x k − 1 ) } k = 1 ∞ \{x_k = f(x_{k-1})\}_{k=1}^\infty { x k = f ( x k − 1 ) } k = 1 ∞ 是柯西序列(从而收敛):
压缩映射的递推估计 :
因 f f f 是压缩映射(存在常数 γ \gamma γ ,0 ≤ γ < 1 0 \leq \gamma < 1 0 ≤ γ < 1 ,使得对任意 x , y x, y x , y ,有 ∥ f ( x ) − f ( y ) ∥ ≤ γ ∥ x − y ∥ \|f(x) - f(y)\| \leq \gamma \|x - y\| ∥ f ( x ) − f ( y ) ∥ ≤ γ ∥ x − y ∥ ),故:
∥ x k + 1 − x k ∥ = ∥ f ( x k ) − f ( x k − 1 ) ∥ ≤ γ ∥ x k − x k − 1 ∥ \|x_{k+1} - x_k\| = \|f(x_k) - f(x_{k-1})\| \leq \gamma \|x_k - x_{k-1}\| ∥ x k + 1 − x k ∥ = ∥ f ( x k ) − f ( x k − 1 ) ∥ ≤ γ ∥ x k − x k − 1 ∥
递推可得:
∥ x k − x k − 1 ∥ ≤ γ ∥ x k − 1 − x k − 2 ∥ , … , ∥ x 2 − x 1 ∥ ≤ γ ∥ x 1 − x 0 ∥ \|x_k - x_{k-1}\| \leq \gamma \|x_{k-1} - x_{k-2}\|, \quad \dots, \quad \|x_2 - x_1\| \leq \gamma \|x_1 - x_0\| ∥ x k − x k − 1 ∥ ≤ γ ∥ x k − 1 − x k − 2 ∥ , … , ∥ x 2 − x 1 ∥ ≤ γ ∥ x 1 − x 0 ∥
因此,通过迭代放缩:
∥ x k + 1 − x k ∥ ≤ γ k ∥ x 1 − x 0 ∥ \|x_{k+1} - x_k\| \leq \gamma^k \|x_1 - x_0\| ∥ x k + 1 − x k ∥ ≤ γ k ∥ x 1 − x 0 ∥
由于 γ < 1 \gamma < 1 γ < 1 ,∥ x k + 1 − x k ∥ \|x_{k+1} - x_k\| ∥ x k + 1 − x k ∥ 随 k → ∞ k \to \infty k → ∞ 指数级收敛到0,但这不足以直接推出 { x k } \{x_k\} { x k } 收敛 ,需进一步分析任意两项的差。
任意两项差的估计(柯西序列判定) :
对任意 m > n m > n m > n ,将 ∥ x m − x n ∥ \|x_m - x_n\| ∥ x m − x n ∥ 拆分为相邻项的累加和:
∥ x m − x n ∥ = ∥ x m − x m − 1 + x m − 1 − ⋯ − x n + 1 + x n + 1 − x n ∥ \|x_m - x_n\| = \|x_m - x_{m-1} + x_{m-1} - \dots - x_{n+1} + x_{n+1} - x_n\| ∥ x m − x n ∥ = ∥ x m − x m − 1 + x m − 1 − ⋯ − x n + 1 + x n + 1 − x n ∥
由范数的三角不等式,得:
∥ x m − x n ∥ ≤ ∥ x m − x m − 1 ∥ + ⋯ + ∥ x n + 1 − x n ∥ \|x_m - x_n\| \leq \|x_m - x_{m-1}\| + \dots + \|x_{n+1} - x_n\| ∥ x m − x n ∥ ≤ ∥ x m − x m − 1 ∥ + ⋯ + ∥ x n + 1 − x n ∥
代入“∥ x k + 1 − x k ∥ ≤ γ k ∥ x 1 − x 0 ∥ \|x_{k+1} - x_k\| \leq \gamma^k \|x_1 - x_0\| ∥ x k + 1 − x k ∥ ≤ γ k ∥ x 1 − x 0 ∥ ”的估计,得:
∥ x m − x n ∥ ≤ γ m − 1 ∥ x 1 − x 0 ∥ + ⋯ + γ n ∥ x 1 − x 0 ∥ \|x_m - x_n\| \leq \gamma^{m-1} \|x_1 - x_0\| + \dots + \gamma^n \|x_1 - x_0\| ∥ x m − x n ∥ ≤ γ m − 1 ∥ x 1 − x 0 ∥ + ⋯ + γ n ∥ x 1 − x 0 ∥
这是公比为 γ \gamma γ (γ < 1 \gamma < 1 γ < 1 )的等比数列求和,因此:
∥ x m − x n ∥ ≤ γ n ⋅ 1 − γ m − n 1 − γ ⋅ ∥ x 1 − x 0 ∥ ≤ γ n 1 − γ ∥ x 1 − x 0 ∥ (3.4) \|x_m - x_n\| \leq \gamma^n \cdot \frac{1 - \gamma^{m-n}}{1 - \gamma} \cdot \|x_1 - x_0\| \leq \frac{\gamma^n}{1 - \gamma} \|x_1 - x_0\| \tag{3.4} ∥ x m − x n ∥ ≤ γ n ⋅ 1 − γ 1 − γ m − n ⋅ ∥ x 1 − x 0 ∥ ≤ 1 − γ γ n ∥ x 1 − x 0 ∥ ( 3.4 )
柯西序列的结论 :
对任意 ε > 0 \varepsilon > 0 ε > 0 ,由于 γ n → 0 \gamma^n \to 0 γ n → 0 (当 n → ∞ n \to \infty n → ∞ ),总能找到 N N N ,使得对所有 m , n > N m, n > N m , n > N ,有 ∥ x m − x n ∥ < ε \|x_m - x_n\| < \varepsilon ∥ x m − x n ∥ < ε 。因此,{ x k } \{x_k\} { x k } 是柯西序列,故必收敛到极限点 x ∗ = lim k → ∞ x k x^* = \lim_{k \to \infty} x_k x ∗ = lim k → ∞ x k 。
部分2:证明极限 x ∗ = lim k → ∞ x k x^* = \lim_{k \to \infty} x_k x ∗ = lim k → ∞ x k 是不动点
由压缩映射的估计,∥ f ( x k ) − x k ∥ = ∥ x k + 1 − x k ∥ ≤ γ k ∥ x 1 − x 0 ∥ \|f(x_k) - x_k\| = \|x_{k+1} - x_k\| \leq \gamma^k \|x_1 - x_0\| ∥ f ( x k ) − x k ∥ = ∥ x k + 1 − x k ∥ ≤ γ k ∥ x 1 − x 0 ∥ 。由于 γ < 1 \gamma < 1 γ < 1 ,∥ f ( x k ) − x k ∥ \|f(x_k) - x_k\| ∥ f ( x k ) − x k ∥ 随 k → ∞ k \to \infty k → ∞ 指数级收敛到0。
对 f ( x k ) − x k f(x_k) - x_k f ( x k ) − x k 取极限(因 f f f 连续,极限可交换),得:
lim k → ∞ ∥ f ( x k ) − x k ∥ = ∥ f ( x ∗ ) − x ∗ ∥ = 0 \lim_{k \to \infty} \|f(x_k) - x_k\| = \|f(x^*) - x^*\| = 0 k → ∞ lim ∥ f ( x k ) − x k ∥ = ∥ f ( x ∗ ) − x ∗ ∥ = 0
故 f ( x ∗ ) = x ∗ f(x^*) = x^* f ( x ∗ ) = x ∗ ,即 x ∗ x^* x ∗ 是不动点。
部分3:证明不动点唯一
假设存在另一个不动点 x ′ x' x ′ (满足 f ( x ′ ) = x ′ f(x') = x' f ( x ′ ) = x ′ ),则由压缩映射的定义:
∥ x ′ − x ∗ ∥ = ∥ f ( x ′ ) − f ( x ∗ ) ∥ ≤ γ ∥ x ′ − x ∗ ∥ \|x' - x^*\| = \|f(x') - f(x^*)\| \leq \gamma \|x' - x^*\| ∥ x ′ − x ∗ ∥ = ∥ f ( x ′ ) − f ( x ∗ ) ∥ ≤ γ ∥ x ′ − x ∗ ∥
由于 γ < 1 \gamma < 1 γ < 1 ,上述不等式成立当且仅当 ∥ x ′ − x ∗ ∥ = 0 \|x' - x^*\| = 0 ∥ x ′ − x ∗ ∥ = 0 ,故 x ′ = x ∗ x' = x^* x ′ = x ∗ ,即不动点唯一。
部分4:证明 x k x_k x k 指数级收敛到 x ∗ x^* x ∗
回顾式 (3.4):对任意 m > n m > n m > n ,有 ∥ x m − x n ∥ ≤ γ n 1 − γ ∥ x 1 − x 0 ∥ \|x_m - x_n\| \leq \frac{\gamma^n}{1 - \gamma} \|x_1 - x_0\| ∥ x m − x n ∥ ≤ 1 − γ γ n ∥ x 1 − x 0 ∥ 。令 m → ∞ m \to \infty m → ∞ (利用极限的保序性),则:
∥ x ∗ − x n ∥ = lim m → ∞ ∥ x m − x n ∥ ≤ γ n 1 − γ ∥ x 1 − x 0 ∥ \|x^* - x_n\| = \lim_{m \to \infty} \|x_m - x_n\| \leq \frac{\gamma^n}{1 - \gamma} \|x_1 - x_0\| ∥ x ∗ − x n ∥ = m → ∞ lim ∥ x m − x n ∥ ≤ 1 − γ γ n ∥ x 1 − x 0 ∥
由于 γ < 1 \gamma < 1 γ < 1 ,当 n → ∞ n \to \infty n → ∞ 时,误差 ∥ x ∗ − x n ∥ \|x^* - x_n\| ∥ x ∗ − x n ∥ 随 γ n \gamma^n γ n 指数级收敛到0。
三、贝尔曼最优公式的求解(基于收缩映射定理)
(一)关键前提:证明f ( v ) f(v) f ( v ) 是收缩映射
贝尔曼最优公式中的f ( v ) f(v) f ( v ) 满足收缩映射定义,核心依据是折扣因子γ < 1 γ < 1 γ < 1 (强化学习中γ γ γ 用于衡量未来奖励的权重,通常取0 < γ < 1 0 < γ < 1 0 < γ < 1 ),由此可推导出∣ ∣ f ( v 1 ) − f ( v 2 ) ∣ ∣ ≤ γ ⋅ ∣ ∣ v 1 − v 2 ∣ ∣ ||f(v_1) - f(v_2)|| ≤ γ·||v_1 - v_2|| ∣∣ f ( v 1 ) − f ( v 2 ) ∣∣ ≤ γ ⋅ ∣∣ v 1 − v 2 ∣∣ ,故f ( v ) f(v) f ( v ) 是收缩映射。
[!info] Proof of Theorem 3.2
Consider any two vectors v 1 , v 2 ∈ R ∣ S ∣ v_1, v_2 \in \mathbb{R}^{|\mathcal{S}|} v 1 , v 2 ∈ R ∣ S ∣ , and suppose that π 1 ∗ ≐ arg max π ( r π + γ P π v 1 ) \pi_1^* \doteq \arg\max_\pi (r_\pi + \gamma P_\pi v_1) π 1 ∗ ≐ arg max π ( r π + γ P π v 1 ) andπ 2 ∗ ≐ arg max π ( r π + γ P π v 2 ) \pi_2^* \doteq \arg\max_\pi (r_\pi + \gamma P_\pi v_2) π 2 ∗ ≐ arg max π ( r π + γ P π v 2 ) . Then,
f ( v 1 ) = max π ( r π + γ P π v 1 ) = r π 1 ∗ + γ P π 1 ∗ v 1 ≥ r π 2 ∗ + γ P π 2 ∗ v 1 , f(v_1) = \max_\pi (r_\pi + \gamma P_\pi v_1) = r_{\pi_1^*} + \gamma P_{\pi_1^*} v_1 \geq r_{\pi_2^*} + \gamma P_{\pi_2^*} v_1, f ( v 1 ) = π max ( r π + γ P π v 1 ) = r π 1 ∗ + γ P π 1 ∗ v 1 ≥ r π 2 ∗ + γ P π 2 ∗ v 1 ,
f ( v 2 ) = max π ( r π + γ P π v 2 ) = r π 2 ∗ + γ P π 2 ∗ v 2 ≥ r π 1 ∗ + γ P π 1 ∗ v 2 , f(v_2) = \max_\pi (r_\pi + \gamma P_\pi v_2) = r_{\pi_2^*} + \gamma P_{\pi_2^*} v_2 \geq r_{\pi_1^*} + \gamma P_{\pi_1^*} v_2, f ( v 2 ) = π max ( r π + γ P π v 2 ) = r π 2 ∗ + γ P π 2 ∗ v 2 ≥ r π 1 ∗ + γ P π 1 ∗ v 2 ,
where ( \geq ) is an elementwise comparison. As a result,
f ( v 1 ) − f ( v 2 ) = r π 1 ∗ + γ P π 1 ∗ v 1 − ( r π 2 ∗ + γ P π 2 ∗ v 2 ) ≤ r π 1 ∗ + γ P π 1 ∗ v 1 − ( r π 1 ∗ + γ P π 1 ∗ v 2 ) = γ P π 1 ∗ ( v 1 − v 2 ) . \begin{align*}
f(v_1) - f(v_2) &= r_{\pi_1^*} + \gamma P_{\pi_1^*} v_1 - \left( r_{\pi_2^*} + \gamma P_{\pi_2^*} v_2 \right) \\
&\leq r_{\pi_1^*} + \gamma P_{\pi_1^*} v_1 - \left( r_{\pi_1^*} + \gamma P_{\pi_1^*} v_2 \right) \\
&= \gamma P_{\pi_1^*} (v_1 - v_2).
\end{align*} f ( v 1 ) − f ( v 2 ) = r π 1 ∗ + γ P π 1 ∗ v 1 − ( r π 2 ∗ + γ P π 2 ∗ v 2 ) ≤ r π 1 ∗ + γ P π 1 ∗ v 1 − ( r π 1 ∗ + γ P π 1 ∗ v 2 ) = γ P π 1 ∗ ( v 1 − v 2 ) .
Similarly, it can be shown that f ( v 2 ) − f ( v 1 ) ≤ γ P π 2 ∗ ( v 2 − v 1 ) f(v_2) - f(v_1) \leq \gamma P_{\pi_2^*} (v_2 - v_1) f ( v 2 ) − f ( v 1 ) ≤ γ P π 2 ∗ ( v 2 − v 1 ) . Therefore,
γ P π 2 ∗ ( v 1 − v 2 ) ≤ f ( v 1 ) − f ( v 2 ) ≤ γ P π 1 ∗ ( v 1 − v 2 ) . \gamma P_{\pi_2^*} (v_1 - v_2) \leq f(v_1) - f(v_2) \leq \gamma P_{\pi_1^*} (v_1 - v_2). γ P π 2 ∗ ( v 1 − v 2 ) ≤ f ( v 1 ) − f ( v 2 ) ≤ γ P π 1 ∗ ( v 1 − v 2 ) .
Define
z ≐ max { ∣ γ P π 2 ∗ ( v 1 − v 2 ) ∣ , ∣ γ P π 1 ∗ ( v 1 − v 2 ) ∣ } ∈ R ∣ S ∣ , z \doteq \max \left\{ |\gamma P_{\pi_2^*} (v_1 - v_2)|, |\gamma P_{\pi_1^*} (v_1 - v_2)| \right\} \in \mathbb{R}^{|\mathcal{S}|}, z ≐ max { ∣ γ P π 2 ∗ ( v 1 − v 2 ) ∣ , ∣ γ P π 1 ∗ ( v 1 − v 2 ) ∣ } ∈ R ∣ S ∣ ,
where max ( ⋅ ) , ∣ ⋅ ∣ , a n d ≥ \max(\cdot) , |\cdot| , and \geq max ( ⋅ ) , ∣ ⋅ ∣ , an d ≥ are all elementwise operators. By definition, z ≥ 0 z \geq 0 z ≥ 0 . On the one hand, it is easy to see that
− z ≤ γ P π 2 ∗ ( v 1 − v 2 ) ≤ f ( v 1 ) − f ( v 2 ) ≤ γ P π 1 ∗ ( v 1 − v 2 ) ≤ z , -z \leq \gamma P_{\pi_2^*} (v_1 - v_2) \leq f(v_1) - f(v_2) \leq \gamma P_{\pi_1^*} (v_1 - v_2) \leq z, − z ≤ γ P π 2 ∗ ( v 1 − v 2 ) ≤ f ( v 1 ) − f ( v 2 ) ≤ γ P π 1 ∗ ( v 1 − v 2 ) ≤ z ,
which implies
∣ f ( v 1 ) − f ( v 2 ) ∣ ≤ z . |f(v_1) - f(v_2)| \leq z. ∣ f ( v 1 ) − f ( v 2 ) ∣ ≤ z .
It then follows that
∥ f ( v 1 ) − f ( v 2 ) ∥ ∞ ≤ ∥ z ∥ ∞ , (3.5) \| f(v_1) - f(v_2) \|_\infty \leq \| z \|_\infty, \tag{3.5} ∥ f ( v 1 ) − f ( v 2 ) ∥ ∞ ≤ ∥ z ∥ ∞ , ( 3.5 )
where ∥ ⋅ ∥ ∞ \| \cdot \|_\infty ∥ ⋅ ∥ ∞ is the maximum norm.
On the other hand, suppose that z i z_i z i is the i i i -th entry of z z z , and p i T p_i^T p i T and q i T q_i^T q i T are the i i i -th row of P π 1 ∗ P_{\pi_1^*} P π 1 ∗ and P π 2 ∗ P_{\pi_2^*} P π 2 ∗ , respectively. Then,
z i = max { ∣ γ p i T ( v 1 − v 2 ) ∣ , ∣ γ q i T ( v 1 − v 2 ) ∣ } . z_i = \max \left\{ |\gamma p_i^T (v_1 - v_2)|, |\gamma q_i^T (v_1 - v_2)| \right\}. z i = max { ∣ γ p i T ( v 1 − v 2 ) ∣ , ∣ γ q i T ( v 1 − v 2 ) ∣ } .
Since p i p_i p i is a vector with all nonnegative elements and the sum of the elements is equal to one, it follows that
∣ p i T ( v 1 − v 2 ) ∣ ≤ p i T ∣ v 1 − v 2 ∣ ≤ ∥ v 1 − v 2 ∥ ∞ . |p_i^T (v_1 - v_2)| \leq p_i^T |v_1 - v_2| \leq \| v_1 - v_2 \|_\infty. ∣ p i T ( v 1 − v 2 ) ∣ ≤ p i T ∣ v 1 − v 2 ∣ ≤ ∥ v 1 − v 2 ∥ ∞ .
Similarly, we have ∣ q i T ( v 1 − v 2 ) ∣ ≤ ∥ v 1 − v 2 ∥ ∞ |q_i^T (v_1 - v_2)| \leq \| v_1 - v_2 \|_\infty ∣ q i T ( v 1 − v 2 ) ∣ ≤ ∥ v 1 − v 2 ∥ ∞ . Therefore, z i ≤ γ ∥ v 1 − v 2 ∥ ∞ z_i \leq \gamma \| v_1 - v_2 \|_\infty z i ≤ γ ∥ v 1 − v 2 ∥ ∞ and hence
∥ z ∥ ∞ = max i ∣ z i ∣ ≤ γ ∥ v 1 − v 2 ∥ ∞ . \| z \|_\infty = \max_i |z_i| \leq \gamma \| v_1 - v_2 \|_\infty. ∥ z ∥ ∞ = i max ∣ z i ∣ ≤ γ ∥ v 1 − v 2 ∥ ∞ .
Substituting this inequality gives
∥ f ( v 1 ) − f ( v 2 ) ∥ ∞ ≤ γ ∥ v 1 − v 2 ∥ ∞ , \| f(v_1) - f(v_2) \|_\infty \leq \gamma \| v_1 - v_2 \|_\infty, ∥ f ( v 1 ) − f ( v 2 ) ∥ ∞ ≤ γ ∥ v 1 − v 2 ∥ ∞ ,
which concludes the proof of the contraction property of f ( v ) f(v) f ( v ) .
(二)求解结论(对应收缩映射定理的3个性质)
解的存在性 :贝尔曼最优公式v = f ( v ) v = f(v) v = f ( v ) 必然存在解,记为最优状态值函数v ∗ v* v ∗ 。
解的唯一性 :最优状态值函数v ∗ v^* v ∗ 是唯一的(不存在多个“最优值”)。
迭代求解方法 :通过v k + 1 = f ( v k ) v_{k+1} = f(v_k) v k + 1 = f ( v k ) 迭代计算,v k v_k v k 最终会收敛到v ∗ v^* v ∗ (后续课程中的“值迭代算法”即基于此原理)。
四、贝尔曼最优公式解的最优性(与最优策略的关联)
(一)最优策略的定义与推导
最优策略π ∗ π^* π ∗ 的定义 :当状态值函数固定为v ∗ v^* v ∗ 时,能使f ( v ∗ ) = v ∗ f(v^*) = v^* f ( v ∗ ) = v ∗ 成立的策略,即对每个状态s s s ,选择能最大化“即时奖励 + 折扣后未来价值”的动作。
公式转化 :将贝尔曼最优公式中的max π \max π max π 替换为π ∗ π^* π ∗ ,得到v ∗ = r + γ P π ∗ v ∗ v^* = r + γP_{π^*}v^* v ∗ = r + γ P π ∗ v ∗ (r r r 为奖励向量,P π ∗ P_{π^*} P π ∗ 为π ∗ π^* π ∗ 对应的状态转移概率矩阵),该式本质是对应最优策略π ∗ π^* π ∗ 的贝尔曼公式 。
结论:v ∗ v^* v ∗ 就是最优策略π ∗ π^* π ∗ 对应的状态值函数,即v ∗ = v π ∗ v^* = v_{π^*} v ∗ = v π ∗ (v π ∗ v^π* v π ∗ 表示策略π ∗ π* π ∗ 的状态值)。
(二)v ∗ v* v ∗ 的最优性证明
v ∗ v* v ∗ 是所有可能策略对应的状态值函数中的最大值 :
对任意非最优策略π π π ,其状态值函数v π v_π v π 满足v π ≤ v ∗ v_π ≤ v^* v π ≤ v ∗ (即v ∗ v* v ∗ 优于所有非最优策略的价值);
因此,π ∗ π^* π ∗ 是最优策略(其对应的v π ∗ = v ∗ v_{π^*} = v^* v π ∗ = v ∗ 为最大价值)。
[!info] Proof of Theorem 3.4
For any policy π \pi π , it holds that
v π = r π + γ P π v π . v_\pi = r_\pi + \gamma P_\pi v_\pi. v π = r π + γ P π v π .
Since
v ∗ = max π ( r π + γ P π v ∗ ) = r π ∗ + γ P π ∗ v ∗ ≥ r π + γ P π v ∗ , v^* = \max_\pi (r_\pi + \gamma P_\pi v^*) = r_{\pi^*} + \gamma P_{\pi^*} v^* \geq r_\pi + \gamma P_\pi v^*, v ∗ = π max ( r π + γ P π v ∗ ) = r π ∗ + γ P π ∗ v ∗ ≥ r π + γ P π v ∗ ,
we have
v ∗ − v π ≥ ( r π + γ P π v ∗ ) − ( r π + γ P π v π ) = γ P π ( v ∗ − v π ) . v^* - v_\pi \geq (r_\pi + \gamma P_\pi v^*) - (r_\pi + \gamma P_\pi v_\pi) = \gamma P_\pi (v^* - v_\pi). v ∗ − v π ≥ ( r π + γ P π v ∗ ) − ( r π + γ P π v π ) = γ P π ( v ∗ − v π ) .
Repeatedly applying the above inequality gives v ∗ − v π ≥ γ P π ( v ∗ − v π ) ≥ γ 2 P π 2 ( v ∗ − v π ) ≥ ⋯ ≥ γ n P π n ( v ∗ − v π ) v^* - v_\pi \geq \gamma P_\pi (v^* - v_\pi) \geq \gamma^2 P_\pi^2 (v^* - v_\pi) \geq \cdots \geq \gamma^n P_\pi^n (v^* - v_\pi) v ∗ − v π ≥ γ P π ( v ∗ − v π ) ≥ γ 2 P π 2 ( v ∗ − v π ) ≥ ⋯ ≥ γ n P π n ( v ∗ − v π ) . It follows that
v ∗ − v π ≥ lim n → ∞ γ n P π n ( v ∗ − v π ) = 0 , v^* - v_\pi \geq \lim_{n \to \infty} \gamma^n P_\pi^n (v^* - v_\pi) = 0, v ∗ − v π ≥ n → ∞ lim γ n P π n ( v ∗ − v π ) = 0 ,
where the last equality is true because γ < 1 \gamma < 1 γ < 1 and P π n P_\pi^n P π n is a nonnegative matrix with all its elements less than or equal to 1 (because P π n 1 = 1 P_\pi^n \mathbf{1} = \mathbf{1} P π n 1 = 1 ) Therefore, v ∗ ≥ v π v^* \geq v_\pi v ∗ ≥ v π for any π \pi π .
(三)最优策略π ∗ π* π ∗ 的形式
π ∗ π* π ∗ 是确定性(Deterministic)贪心策略(Greedy Policy) :
对每个状态s s s ,π ∗ π^* π ∗ 会选择使“动作值函数(Action Value)q ∗ ( s , a ) q^*(s,a) q ∗ ( s , a ) ”最大的动作a ∗ a^* a ∗ ;
选择概率:π ∗ ( a ∗ ∣ s ) = 1 π^*(a^*|s) = 1 π ∗ ( a ∗ ∣ s ) = 1 (必然选择最优动作),π ∗ ( a ∣ s ) = 0 π^*(a|s) = 0 π ∗ ( a ∣ s ) = 0 (不选择其他动作)。
第3课-贝尔曼最优公式(最优策略的有趣性质)知识点整理
一、贝尔曼最优公式核心逻辑
公式作用 :作为求解强化学习中最优策略(π*) 和最优状态价值(v*) 的核心工具,能直接关联已知条件与目标解,为策略优化提供数学依据。
变量关系 :
已知量(红色变量) :决定最优策略的关键输入,是构建贝尔曼最优公式的基础,包括三类:
系统模型(概率P):描述状态转移规律的量化指标,即从当前状态s执行动作a后,转移到下一状态s’的概率,反映环境本身的动态特性。
奖励函数(r):人工定义的奖惩规则,用于引导智能体行为,例如到达目标区域奖励为正(如+1)、进入禁止区域或撞边界奖励为负(如-1)。
折扣因子(γ):调节智能体对短期奖励与长期奖励重视程度的参数,取值范围为[0,1),是平衡即时收益与未来收益的核心。
求解量(黑色变量) :通过贝尔曼最优公式计算得出的目标结果,即能使长期收益最大化的最优策略(π*),以及对应策略下各状态的最优状态价值(v*)。
二、影响最优策略的关键因素(实验验证)
以“网格世界”为实验场景(包含目标区域、禁止区域与边界),验证奖励函数(r) 和折扣因子(γ) 对最优策略的直接影响(系统模型通常由环境决定,难以改变,故暂不讨论)。
1. 折扣因子(γ)的影响:控制智能体“短视/远视”特性
折扣因子的大小直接决定智能体对未来奖励的权重分配,进而改变策略选择,实验分三种典型场景:
折扣因子(γ) 智能体特性 策略表现(网格世界案例) 核心原因 0.9(较大) 远视:重视长期总收益 主动穿过禁止区域(短期承受-1惩罚),快速抵达目标区域 虽然穿过禁止区域会有短期惩罚,但能更早获得目标区域的长期奖励;γ较大时,未来奖励折扣幅度小,总收益高于绕路方案。 0.5(中等) 中性:平衡短期与长期收益 绕开禁止区域,选择更长路径前往目标区域 此时绕路的短期无惩罚,叠加未来奖励的折扣效应后,总收益超过穿过禁止区域的方案,策略自然倾向规避风险。 0(极小) 极端短视:仅关注即时奖励 原地不动或仅选择即时奖励≥0的动作,无法到达目标区域 当γ=0时,未来奖励经折扣后全部为0,总收益等价于即时奖励;智能体仅规避即时惩罚(如撞边界、进禁止区),完全忽略长期目标。
2. 奖励函数(r)的影响:调整奖惩权重引导行为
通过改变“禁止区域”的惩罚力度,可直接反转智能体的策略选择:
原设置(禁止区域r=-1,γ=0.9):智能体选择穿过禁止区域,以短期小惩罚换取长期高收益。
调整后(禁止区域r=-10,γ=0.9):智能体选择绕开禁止区域,因短期大惩罚的代价远超长期奖励收益,策略随奖惩权重变化而反转。
三、最优策略的不变性:奖励线性变换不改变策略
1. 核心结论
若对所有奖励进行线性变换 (即r ′ = α ⋅ r + β r' = \alpha \cdot r + \beta r ′ = α ⋅ r + β ,其中α > 0 \alpha > 0 α > 0 为正的缩放因子,β \beta β 为偏置量),则最优策略(π*)保持不变 ,仅最优状态价值(v*)会同步发生线性变换。
变换公式为v ′ = α ⋅ v ∗ + β 1 − γ 1 v' = \alpha \cdot v^* + \frac{\beta}{1-\gamma}\mathbb{1} v ′ = α ⋅ v ∗ + 1 − γ β 1 ,其中γ \gamma γ 为discounted rate,1 = [ 1 , 1 , . . . , 1 ] T \mathbb{1} =[1,1,...,1]^T 1 = [ 1 , 1 , ... , 1 ] T
[!info]### Box 3.5: Proof of Theorem 3.6
For any policy π \pi π , define r π = [ … , r π ( s ) , … ] T r_\pi = [\ldots, r_\pi(s), \ldots]^T r π = [ … , r π ( s ) , … ] T where
r π ( s ) = ∑ a ∈ A π ( a ∣ s ) ∑ r ∈ R p ( r ∣ s , a ) r , s ∈ S . r_\pi(s) = \sum_{a \in \mathcal{A}} \pi(a|s) \sum_{r \in \mathcal{R}} p(r|s,a) r, \quad s \in \mathcal{S}. r π ( s ) = a ∈ A ∑ π ( a ∣ s ) r ∈ R ∑ p ( r ∣ s , a ) r , s ∈ S .
If r → α r + β r \to \alpha r + \beta r → α r + β , then r π ( s ) → α r π ( s ) + β r_\pi(s) \to \alpha r_\pi(s) + \beta r π ( s ) → α r π ( s ) + β and hence r π → α r π + β 1 r_\pi \to \alpha r_\pi + \beta \mathbf{1} r π → α r π + β 1 , where 1 = [ 1 , … , 1 ] T \mathbf{1} = [1, \ldots, 1]^T 1 = [ 1 , … , 1 ] T . In this case, the BOE becomes
v ′ = max π ∈ Π ( α r π + β 1 + γ P π v ′ ) . (3.9) v' = \max_{\pi \in \Pi} (\alpha r_\pi + \beta \mathbf{1} + \gamma P_\pi v'). \tag{3.9} v ′ = π ∈ Π max ( α r π + β 1 + γ P π v ′ ) . ( 3.9 )
We next solve the new BOE in (3.9) by showing that v ′ = α v ∗ + c 1 v' = \alpha v^* + c \mathbf{1} v ′ = α v ∗ + c 1 with c = β / ( 1 − γ ) c = \beta/(1-\gamma) c = β / ( 1 − γ ) is a solution of (3.9). In particular, substituting v ′ = α v ∗ + c 1 v' = \alpha v^* + c \mathbf{1} v ′ = α v ∗ + c 1 into (3.9) gives
α v ∗ + c 1 = max π ∈ Π ( α r π + β 1 + γ P π ( α v ∗ + c 1 ) ) = max π ∈ Π ( α r π + β 1 + α γ P π v ∗ + c γ 1 ) , \alpha v^* + c \mathbf{1} = \max_{\pi \in \Pi} (\alpha r_\pi + \beta \mathbf{1} + \gamma P_\pi (\alpha v^* + c \mathbf{1})) = \max_{\pi \in \Pi} (\alpha r_\pi + \beta \mathbf{1} + \alpha \gamma P_\pi v^* + c \gamma \mathbf{1}), α v ∗ + c 1 = π ∈ Π max ( α r π + β 1 + γ P π ( α v ∗ + c 1 )) = π ∈ Π max ( α r π + β 1 + α γ P π v ∗ + c γ 1 ) ,
where the last equality is due to the fact that P π 1 = 1 P_\pi \mathbf{1} = \mathbf{1} P π 1 = 1 . The above equation can be reorganized as
α v ∗ = max π ∈ Π ( α r π + α γ P π v ∗ ) + β 1 + c γ 1 − c 1 , \alpha v^* = \max_{\pi \in \Pi} (\alpha r_\pi + \alpha \gamma P_\pi v^*) + \beta \mathbf{1} + c \gamma \mathbf{1} - c \mathbf{1}, α v ∗ = π ∈ Π max ( α r π + α γ P π v ∗ ) + β 1 + c γ 1 − c 1 ,
which is equivalent to
β 1 + c γ 1 − c 1 = 0. \beta \mathbf{1} + c \gamma \mathbf{1} - c \mathbf{1} = 0. β 1 + c γ 1 − c 1 = 0.
Since c = β / ( 1 − γ ) c = \beta/(1-\gamma) c = β / ( 1 − γ ) , the above equation is valid and hence v ′ = α v ∗ + c 1 v' = \alpha v^* + c \mathbf{1} v ′ = α v ∗ + c 1 is the solution of (3.9). Since (3.9) is the BOE, v ′ v' v ′ is also the unique solution. Finally, since v ′ v' v ′ is an affine transformation of v ∗ v^* v ∗ , the relative relationships between the action values remain the same. Hence, the greedy optimal policy derived from v ′ v' v ′ is the same as that from v ∗ v^* v ∗ : arg max π ∈ Π ( r π + γ P π v ′ ) \arg\max_{\pi \in \Pi} (r_\pi + \gamma P_\pi v') arg max π ∈ Π ( r π + γ P π v ′ ) is the same as arg max π ( r π + γ P π v ∗ ) \arg\max_\pi (r_\pi + \gamma P_\pi v^*) arg max π ( r π + γ P π v ∗ ) .
2. 原理分析
最优策略的选择依赖动作价值(Q值)的相对大小 ,而非绝对数值:
线性变换后,所有动作的Q值会同步进行缩放和偏移(例如原Q值为[1,2,1],变换后可能为[100,200,100]),但“最大值对应的动作”始终不变,因此策略不会改变。
示例验证:
原奖励规则:边界/禁止区r=-1,目标区域r=+1,其他步骤r=0。
线性变换(r’=r+1):边界/禁止区r’=0,目标区域r’=2,其他步骤r’=1。
结果:最优策略完全一致,仅状态价值数值发生变化(如原v=5,变换后v ′ = 5 + 1 1 − 0.9 = 15 v' = 5 + \frac{1}{1-0.9} = 15 v ′ = 5 + 1 − 0.9 1 = 15 )。
四、最优策略的“避绕性”:为何不做无意义绕路?
1. 问题背景
若“非目标/非禁止区域”的奖励r=0(无步数惩罚),理论上智能体可选择绕路(如s1→s2→s1→目标),但最优策略仍倾向最短路径,核心原因与折扣因子(γ)相关。
2. 核心原因:折扣因子的“时间惩罚”效应
绕路会延迟智能体到达目标区域的时间,导致“目标奖励”的折扣次数增加:
假设γ=0.9,最短路径2步到达目标,目标奖励折后为1 ⋅ γ 2 = 0.81 1 \cdot \gamma^2 = 0.81 1 ⋅ γ 2 = 0.81 ;若绕路4步到达,目标奖励折后为1 ⋅ γ 4 ≈ 0.656 1 \cdot \gamma^4 \approx 0.656 1 ⋅ γ 4 ≈ 0.656 ,后者收益显著更低。
结论:即使无明确“步数惩罚”,γ的存在也会对“延迟奖励”产生天然的折扣效应,使最优策略倾向选择最短路径,避免无意义绕路。
五、贝尔曼最优公式的基础性质(回顾与补充)
解的存在性与唯一性 :
最优状态价值(v*):在马尔可夫决策过程(MDP)框架下,由压缩映射定理(Contraction Mapping Theorem) 可证明其存在且唯一 。
最优策略(π*):对应最优状态价值(v*)的最优策略不一定唯一 ,可能存在多个策略能使状态价值达到v*。
求解方法 :已介绍的迭代类算法(值迭代、策略迭代)可通过反复更新状态价值(v)和策略(π),逐步收敛到最优解(v和π )。
六、关键总结
最优策略由奖励函数(r)、折扣因子(γ)、系统模型(P) 共同决定,其中r和γ是人工可调控的核心参数,需根据任务目标设计。
折扣因子(γ)控制智能体“短视/远视”特性:γ越大,智能体越重视长期收益;γ越小,越关注即时收益。
奖励的线性变换不改变最优策略,仅影响状态价值数值,可利用此特性简化奖励设计(如将负奖励调整为非负,降低计算复杂度)。
折扣因子(γ)具有天然的“反绕路”作用,无需额外设计“步数惩罚”,即可引导智能体选择最短路径。