第3课-贝尔曼最优公式(最优策略和公式推导)知识点整理¶
约 3475 个字 预计阅读时间 17 分钟
一、最优策略的定义与核心问题¶
1. 策略优劣的比较标准¶
- 若存在两个策略\(\pi_1\)和\(\pi_2\),对于所有状态\(s\),\(\pi_1\)对应的状态价值\(v_{\pi_1}(s)\)均大于\(\pi_2\)对应的状态价值\(v_{\pi_2}(s)\),则称\(\pi_1\)优于\(\pi_2\)。
- 最优策略\(\pi^*\)的定义:对任意状态\(s\) 和任意其他策略\(\pi\),均满足\(v_{\pi^*}(s) \geq v_{\pi}(s)\),即\(\pi^*\)在所有状态下的价值都不低于其他任何策略。
2. 最优策略的四大核心问题¶
- 存在性:是否存在满足上述定义的最优策略\(\pi^*\)?(理想中“全状态优于其他策略”的策略是否真实存在?)
- 唯一性:最优策略是唯一的,还是存在多个不同但均满足“最优”条件的策略?
- 策略类型:最优策略是确定性策略(某状态下固定选择一个动作),还是随机性策略(某状态下按概率选择多个动作)?
- 求解方法:如何通过数学工具推导并得到最优策略\(\pi^*\)?(核心问题,需通过贝尔曼最优公式解答)
二、贝尔曼最优公式¶
1. 公式形式与核心改动¶
贝尔曼最优公式是在普通贝尔曼公式(依赖给定策略\(\pi\))的基础上,增加了“策略最大化”操作,具体形式如下:
| 公式类型 | 表达式核心逻辑 | 关键区别 |
|---|---|---|
| 普通贝尔曼公式 | \(v_{\pi}(s) = \mathbb{E}_{\pi}\left[ r + \gamma v_{\pi}(s') \mid s \right]\) | 策略\(\pi\)是给定的,仅需计算该策略下的状态价值\(v_{\pi}(s)\) |
| 贝尔曼最优公式 | \(v_*(s) = \max_{\pi} \mathbb{E}_{\pi}\left[ r + \gamma v_*(s') \mid s \right]\) | 策略\(\pi\)是待优化的,需先找到使价值最大的\(\pi\),再计算最优状态价值\(v_*(s)\) |
- 符号说明:\(v_*(s)\)表示“最优状态价值”,即最优策略\(\pi^*\)对应的状态价值;\(\max_{\pi}\)表示对所有可能的策略取最大值。
- 简化表达:公式中期望项可缩写为动作价值\(q(s,a)\)(即状态\(s\)下选择动作\(a\)的价值),因此最优公式可进一步简化为\(v_*(s) = \max_a q(s,a)\)。
2. 已知条件与求解目标¶
| 类别 | 具体内容 |
|---|---|
| 已知条件 | 1. 状态转移概率\(p(s' \mid s,a)\)(系统模型参数,描述“状态\(s\)选动作\(a\)后转移到\(s'\)”的概率) 2. 即时奖励\(r\)(环境反馈,如“选动作\(a\)后获得的收益/惩罚”) 3. 折扣因子\(\gamma\)(控制未来奖励的权重,\(0 \leq \gamma \leq 1\)) |
| 求解目标 | 1. 最优状态价值\(v_*(s)\)(所有状态下的最优价值向量) 2. 最优策略\(\pi^*\)(使\(v(s)\)达到\(v_*(s)\)的策略) |
3. 公式的“优美性”与“复杂性”¶
- 优美性:形式简洁,仅通过“\(\max_{\pi}\)”操作,就将“最优策略”与“最优状态价值”的关系刻画清楚,统一了“策略优化”与“价值计算”两个问题。
- 复杂性:
1. 嵌套优化:公式右侧包含“对策略\(\pi\)求最大值”的优化问题,需先解决优化问题才能计算\(v_*(s)\);
2. 双未知量:表面上需同时求解\(v_*(s)\)(价值向量)和\(\pi^*\)(策略),初学者易困惑“如何用一个公式解两个未知量”。
三、贝尔曼最优公式的求解思路(核心推导)¶
1. 求解逻辑:分两步拆解“双未知量”问题¶
贝尔曼最优公式的求解核心是先固定价值求策略,再代入策略求价值,通过“分步拆解”解决“双未知量”困境,具体以两个例子说明:
目标:
\(v(s) = \max_\pi \sum_a \pi(a|s)(\sum_r (p|s,a)r+\gamma \sum_{s'}p(s'|s,a)v(s')),\forall s \in \mathcal{S} \\ = \max_\pi \sum_a \pi(a|s)q(s,a)\)
例1:How to solve 2 unknowns from 1 equation¶
假设存在公式\(x = \max_a (2x - 1 - a^2)\),需求解\(x\)(对应\(v_*(s)\))和\(a\)(对应策略\(\pi^*\)的动作选择):
1. 第一步:固定\(x\),求最优\(a\):
对\(a\)求最大值,因\(-a^2\)的最大值在\(a=0\)时取得(此时\(-a^2=0\)),因此\(\max_a (2x - 1 - a^2) = 2x - 1\),最优\(a=0\)。
2. 第二步:代入\(a=0\),求\(x\):
公式变为\(x = 2x - 1\),解得\(x=1\)。
最终结果:\(x=1\)(最优价值),\(a=0\)(最优动作)。
例2 How to solve \(\max_{\pi} \sum_{a} \pi(a|s)q(s,a)\)¶
Suppose \(q_1, q_2, q_3 \in \mathbb{R}\) are given. Find \(c_1^*, c_2^*, c_3^*\) solving
$$
\max_{c_1,c_2,c_3} c_1q_1 + c_2q_2 + c_3q_3.
$$
where \(c_1 + c_2 + c_3 = 1\) and \(c_1, c_2, c_3 \geq 0\).
Without loss of generality, suppose \(q_3 \geq q_1, q_2\). Then, the optimal solution is \(c_3^* = 1\) and \(c_1^* = c_2^* = 0\). That is because for any \(c_1, c_2, c_3\)
$$
q_3 = (c_1 + c_2 + c_3)q_3 = c_1q_3 + c_2q_3 + c_3q_3 \geq c_1q_1 + c_2q_2 + c_3q_3.
$$
强化学习场景(映射到贝尔曼最优公式)¶
假设某状态\(s\)下有5个可能动作\(a_1 \sim a_5\),对应动作价值\(q(s,a_1) \sim q(s,a_5)\),需求解\(\pi^*(s,a)\)(策略)和\(v_*(s)\)(最优价值):
1. 第一步:固定\(v_*(s')\),求最优\(\pi\):
动作价值\(q(s,a) = r + \gamma \sum_{s'} p(s' \mid s,a) v_*(s')\),若暂时固定\(v_*(s')\)(可先设初始值),则\(q(s,a)\)可计算。
最优策略需满足:对“使\(q(s,a)\)最大的动作\(a^*\)”,取\(\pi^*(s,a^*) = 1\)(确定性选择该动作);对其他动作\(a \neq a^*\),取\(\pi^*(s,a) = 0\)。
此时\(\max_{\pi} \mathbb{E}_{\pi}[q(s,a)] = \max_a q(s,a)\)(即最优动作对应的动作价值)。
2. 第二步:代入最优\(\pi\),求\(v_*(s)\):
最优状态价值\(v_*(s) = \max_a q(s,a)\),即“最优动作的动作价值”就是该状态的最优状态价值。
Inspired by the above example, considering that \(\sum_a \pi(a|s) = 1\),
we have \(\underbrace{\max_{\pi} \sum_a \pi(a|s) q(s, a)} = \underbrace{\max_{a \in \mathcal{A}(s)} q(s, a)},\)
where the optimality is achieved when \(\pi(a|s) = \begin{cases} 1 & a = a^* \\ 0 & a \neq a^* \end{cases}\)
where \(a^* = \arg \max_a q(s, a)\).
2. 核心结论¶
- 贝尔曼最优公式的求解本质是“贪心策略”:在每个状态下,选择能使“即时奖励+未来最优价值”最大的动作,该动作对应的策略即为局部最优策略,所有状态的局部最优策略构成全局最优策略\(\pi^*\)。
- 最优策略的类型:通过上述推导可知,最优策略可表示为确定性策略(选择\(q(s,a)\)最大的动作),即使存在多个动作的\(q(s,a)\)相等,也可通过“确定性选择其中任意一个”实现最优,无需随机性策略。
四、公式与最优策略的关联¶
贝尔曼最优公式是连接“最优价值”与“最优策略”的桥梁:
1. 若已知最优状态价值\(v_*(s)\),可通过\(q(s,a) = r + \gamma \sum_{s'} p(s' \mid s,a) v_*(s')\)计算所有动作价值,再选择\(q(s,a)\)最大的动作,得到最优策略\(\pi^*\);
2. 若已知最优策略\(\pi^*\),可通过普通贝尔曼公式\(v_*(s) = \mathbb{E}_{\pi^*}\left[ r + \gamma v_*(s') \mid s \right]\)计算最优状态价值\(v_*(s)\)。
第3课-贝尔曼最优公式(公式求解以及最优性)知识点整理¶
一、贝尔曼最优公式的简化形式¶
-
核心转化逻辑:将贝尔曼最优公式中右侧的\(maxπ\)(对策略的最大化)定义为函数\(f(v)\),其中\(v\)为状态值函数(State Value)。
- 关键前提:固定\(v\)后,可求解出对应策略\(π\),最终最优值仅与\(v\)相关,因此\(maxπ\)的结果可表示为\(v\)的函数\(f(v)\)。
- 简化后公式:\(v = f(v)\)(\(f(v)\)为向量,向量中对应状态\(s\)的元素即该状态下的最优值计算项)。 -
\(f(v)\)的向量属性:\(f(v)\)的每个元素对应一个状态\(s\),描述该状态在最优策略下的价值,需结合状态转移概率、奖励等强化学习核心要素计算(承接前序课程中贝尔曼公式的基础定义)。
二、核心数学工具:收缩映射定理(Contraction Mapping Theorem)¶
(一)前置基础概念¶
-
不动点(Fixed Point)
- 定义:若在集合\(X\)上存在点\(x\),映射(函数)\(f\)满足\(f(x) = x\),则\(x\)称为\(f\)的不动点。
- 直观解释:点\(x\)经过函数\(f\)映射后仍回到自身,“位置不变”。 -
收缩映射(Contraction Mapping / Contractive Function)
- 定义:对任意两个点\(x₁\)、\(x₂\),若存在常数\(γ < 1\)(收缩因子),使得\(||f(x₁) - f(x₂)|| ≤ γ·||x₁ - x₂||\)(\(||·||\)表示范数,衡量“距离”),则\(f\)为收缩映射。
- 直观解释:任意两点经过\(f\)映射后,它们的“距离”会被缩小(收缩因子\(γ\)控制缩小比例),因此函数具有“压缩”特性。 -
示例验证
| 案例 | 不动点验证 | 收缩映射验证 |
| -------------------------------- | ----------------------------------- | ------------------------------------------------------------ |
| 标量函数\(f(x) = 0.5x\) | \(f(0) = 0.5×0 = 0\),故\(x=0\)是不动点 | 对任意\(x_1、x_2\),\(||0.5x_1 - 0.5x_2|| = 0.5×||x_1 - x_2||\),取\(γ=0.5 < 1\),满足定义 |
| 向量函数\(f(x) = Ax\)(\(A\)为矩阵) | \(f(0) = A×0 = 0\),故\(x=0\)是不动点 | 若矩阵\(A\)的范数\(||A|| < 1\),则\(||Ax_1 - Ax_2|| ≤ ||A||·||x_1 - x_2||\),满足定义 |
(二)收缩映射定理的核心结论¶
若\(f\)是收缩映射,则方程\(x = f(x)\)满足以下3个关键性质(为贝尔曼最优公式求解提供理论保障):
1. 存在性(Existence):必然存在至少一个不动点\(x_*\),使得\(f(x_*) = x_*\)(无需关注\(f\)的具体表达式,仅需确认其为收缩映射)。
2. 唯一性(Uniqueness):上述不动点\(x_*\)是唯一的(排除“多解”问题,确保最优值的确定性)。
3. 可解性(Solvability):可通过迭代算法求解\(x_*\),迭代公式为\(x_{k+1} = f(x_k)\)(\(x_0\)为初始值):
- 收敛性:当迭代次数\(k→∞\)时,\(x_k\)会收敛到不动点\(x_*\);
- 实用性:实际计算中无需迭代至无穷次,迭代若干步后即可得到满足精度的近似解;
- 收敛速度:指数级收敛(收敛速度快,计算效率高)。
# 压缩映射定理的证明
部分1:证明序列 \(\{x_k\}_{k=1}^\infty\)(其中 \(x_k = f(x_{k-1})\))收敛¶
证明依赖柯西序列的概念:若序列 \(x_1, x_2, \dots\) 满足“对任意小的 \(\varepsilon > 0\),存在整数 \(N\),使得对所有 \(m, n > N\),有 \(\|x_m - x_n\| < \varepsilon\)”,则称该序列为柯西序列。其直观含义是“\(N\) 之后的所有元素都足够接近”。柯西序列的核心性质是:柯西序列必收敛到一个极限,这一性质是证明的关键。
注意:仅满足“相邻项差趋于0(\(x_{n+1} - x_n \to 0\))”不足以说明是柯西序列(例如 \(x_n = \sqrt{n}\),虽 \(x_{n+1} - x_n \to 0\),但 \(x_n = \sqrt{n}\) 发散)。
接下来证明 \(\{x_k = f(x_{k-1})\}_{k=1}^\infty\) 是柯西序列(从而收敛):
-
压缩映射的递推估计:
因 \(f\) 是压缩映射(存在常数 \(\gamma\),\(0 \leq \gamma < 1\),使得对任意 \(x, y\),有 \(\|f(x) - f(y)\| \leq \gamma \|x - y\|\)),故:
$$
|x_{k+1} - x_k| = |f(x_k) - f(x_{k-1})| \leq \gamma |x_k - x_{k-1}|
$$
递推可得:
$$
|x_k - x_{k-1}| \leq \gamma |x_{k-1} - x_{k-2}|, \quad \dots, \quad |x_2 - x_1| \leq \gamma |x_1 - x_0|
$$
因此,通过迭代放缩:
$$
|x_{k+1} - x_k| \leq \gamma^k |x_1 - x_0|
$$
由于 \(\gamma < 1\),\(\|x_{k+1} - x_k\|\) 随 \(k \to \infty\) 指数级收敛到0,但这不足以直接推出 \(\{x_k\}\) 收敛,需进一步分析任意两项的差。 -
任意两项差的估计(柯西序列判定):
对任意 \(m > n\),将 \(\|x_m - x_n\|\) 拆分为相邻项的累加和:
$$
|x_m - x_n| = |x_m - x_{m-1} + x_{m-1} - \dots - x_{n+1} + x_{n+1} - x_n|
$$
由范数的三角不等式,得:
$$
|x_m - x_n| \leq |x_m - x_{m-1}| + \dots + |x_{n+1} - x_n|
$$
代入“\(\|x_{k+1} - x_k\| \leq \gamma^k \|x_1 - x_0\|\)”的估计,得:
$$
|x_m - x_n| \leq \gamma^{m-1} |x_1 - x_0| + \dots + \gamma^n |x_1 - x_0|
$$
这是公比为 \(\gamma\)(\(\gamma < 1\))的等比数列求和,因此:
$$
|x_m - x_n| \leq \gamma^n \cdot \frac{1 - \gamma^{m-n}}{1 - \gamma} \cdot |x_1 - x_0| \leq \frac{\gamma^n}{1 - \gamma} |x_1 - x_0| \tag{3.4}
$$ -
柯西序列的结论:
对任意 \(\varepsilon > 0\),由于 \(\gamma^n \to 0\)(当 \(n \to \infty\)),总能找到 \(N\),使得对所有 \(m, n > N\),有 \(\|x_m - x_n\| < \varepsilon\)。因此,\(\{x_k\}\) 是柯西序列,故必收敛到极限点 \(x^* = \lim_{k \to \infty} x_k\)。
部分2:证明极限 \(x^* = \lim_{k \to \infty} x_k\) 是不动点¶
由压缩映射的估计,\(\|f(x_k) - x_k\| = \|x_{k+1} - x_k\| \leq \gamma^k \|x_1 - x_0\|\)。由于 \(\gamma < 1\),\(\|f(x_k) - x_k\|\) 随 \(k \to \infty\) 指数级收敛到0。
对 \(f(x_k) - x_k\) 取极限(因 \(f\) 连续,极限可交换),得:
$$
\lim_{k \to \infty} |f(x_k) - x_k| = |f(x^) - x^| = 0
$$
故 \(f(x^*) = x^*\),即 \(x^*\) 是不动点。
部分3:证明不动点唯一¶
假设存在另一个不动点 \(x'\)(满足 \(f(x') = x'\)),则由压缩映射的定义:
$$
|x' - x^| = |f(x') - f(x^)| \leq \gamma |x' - x^*|
$$
由于 \(\gamma < 1\),上述不等式成立当且仅当 \(\|x' - x^*\| = 0\),故 \(x' = x^*\),即不动点唯一。
部分4:证明 \(x_k\) 指数级收敛到 \(x^*\)¶
回顾式 (3.4):对任意 \(m > n\),有 \(\|x_m - x_n\| \leq \frac{\gamma^n}{1 - \gamma} \|x_1 - x_0\|\)。令 \(m \to \infty\)(利用极限的保序性),则:
$$
|x^* - x_n| = \lim_{m \to \infty} |x_m - x_n| \leq \frac{\gamma^n}{1 - \gamma} |x_1 - x_0|
$$
由于 \(\gamma < 1\),当 \(n \to \infty\) 时,误差 \(\|x^* - x_n\|\) 随 \(\gamma^n\) 指数级收敛到0。
三、贝尔曼最优公式的求解(基于收缩映射定理)¶
(一)关键前提:证明\(f(v)\)是收缩映射¶
贝尔曼最优公式中的\(f(v)\)满足收缩映射定义,核心依据是折扣因子\(γ < 1\)(强化学习中\(γ\)用于衡量未来奖励的权重,通常取\(0 < γ < 1\)),由此可推导出\(||f(v_1) - f(v_2)|| ≤ γ·||v_1 - v_2||\),故\(f(v)\)是收缩映射。
Proof of Theorem 3.2
Consider any two vectors $v_1, v_2 \in \mathbb{R}^{|\mathcal{S}|} $, and suppose that $ \pi_1^ \doteq \arg\max_\pi (r_\pi + \gamma P_\pi v_1) \(and\) \pi_2^ \doteq \arg\max_\pi (r_\pi + \gamma P_\pi v_2) $. Then,
where \( \geq \) is an elementwise comparison. As a result,
Similarly, it can be shown that $ f(v_2) - f(v_1) \leq \gamma P_{\pi_2^*} (v_2 - v_1) $. Therefore,
Define
where $ \max(\cdot) , |\cdot| , and \geq $ are all elementwise operators. By definition, $ z \geq 0 $. On the one hand, it is easy to see that
which implies
It then follows that
where $ | \cdot |_\infty $ is the maximum norm.
On the other hand, suppose that $ z_i $ is the $ i $-th entry of $ z $, and $ p_i^T $ and $ q_i^T $ are the $ i $-th row of $ P_{\pi_1^} $ and $ P_{\pi_2^} $, respectively. Then,
Since \(p_i\) is a vector with all nonnegative elements and the sum of the elements is equal to one, it follows that
Similarly, we have $ |q_i^T (v_1 - v_2)| \leq | v_1 - v_2 |\infty $. Therefore, $ z_i \leq \gamma | v_1 - v_2 |\infty $ and hence
Substituting this inequality gives
which concludes the proof of the contraction property of \(f(v)\).
(二)求解结论(对应收缩映射定理的3个性质)¶
- 解的存在性:贝尔曼最优公式\(v = f(v)\)必然存在解,记为最优状态值函数\(v*\)。
- 解的唯一性:最优状态值函数\(v^*\)是唯一的(不存在多个“最优值”)。
- 迭代求解方法:通过\(v_{k+1} = f(v_k)\)迭代计算,\(v_k\)最终会收敛到\(v^*\)(后续课程中的“值迭代算法”即基于此原理)。
四、贝尔曼最优公式解的最优性(与最优策略的关联)¶
(一)最优策略的定义与推导¶
- 最优策略\(π^*\)的定义:当状态值函数固定为\(v^*\)时,能使\(f(v^*) = v^*\)成立的策略,即对每个状态\(s\),选择能最大化“即时奖励 + 折扣后未来价值”的动作。
- 公式转化:将贝尔曼最优公式中的\(\max π\)替换为\(π^*\),得到\(v^* = r + γP_{π^*}v^*\)(\(r\)为奖励向量,\(P_{π^*}\)为\(π^*\)对应的状态转移概率矩阵),该式本质是对应最优策略\(π^*\)的贝尔曼公式。
- 结论:\(v^*\)就是最优策略\(π^*\)对应的状态值函数,即\(v^* = v_{π^*}\)(\(v^π*\)表示策略\(π*\)的状态值)。
(二)\(v*\)的最优性证明¶
\(v*\)是所有可能策略对应的状态值函数中的最大值:
- 对任意非最优策略\(π\),其状态值函数\(v_π\)满足\(v_π ≤ v^*\)(即\(v*\)优于所有非最优策略的价值);
- 因此,\(π^*\)是最优策略(其对应的\(v_{π^*} = v^*\)为最大价值)。
Proof of Theorem 3.4
For any policy $ \pi $, it holds that
Since
we have
Repeatedly applying the above inequality gives $ v^ - v_\pi \geq \gamma P_\pi (v^ - v_\pi) \geq \gamma^2 P_\pi^2 (v^ - v_\pi) \geq \cdots \geq \gamma^n P_\pi^n (v^ - v_\pi) $. It follows that
where the last equality is true because $\gamma < 1 $ and $ P_\pi^n $ is a nonnegative matrix with all its elements less than or equal to 1 (because $ P_\pi^n \mathbf{1} = \mathbf{1} $) Therefore, $ v^* \geq v_\pi $ for any $ \pi $.
(三)最优策略\(π*\)的形式¶
\(π*\)是确定性(Deterministic)贪心策略(Greedy Policy):
- 对每个状态\(s\),\(π^*\)会选择使“动作值函数(Action Value)\(q^*(s,a)\)”最大的动作\(a^*\);
- 选择概率:\(π^*(a^*|s) = 1\)(必然选择最优动作),\(π^*(a|s) = 0\)(不选择其他动作)。
第3课-贝尔曼最优公式(最优策略的有趣性质)知识点整理¶
一、贝尔曼最优公式核心逻辑¶
- 公式作用:作为求解强化学习中最优策略(π*) 和最优状态价值(v*) 的核心工具,能直接关联已知条件与目标解,为策略优化提供数学依据。
- 变量关系:
- 已知量(红色变量):决定最优策略的关键输入,是构建贝尔曼最优公式的基础,包括三类:- 系统模型(概率P):描述状态转移规律的量化指标,即从当前状态s执行动作a后,转移到下一状态s'的概率,反映环境本身的动态特性。
- 奖励函数(r):人工定义的奖惩规则,用于引导智能体行为,例如到达目标区域奖励为正(如+1)、进入禁止区域或撞边界奖励为负(如-1)。
- 折扣因子(γ):调节智能体对短期奖励与长期奖励重视程度的参数,取值范围为[0,1),是平衡即时收益与未来收益的核心。
- 求解量(黑色变量):通过贝尔曼最优公式计算得出的目标结果,即能使长期收益最大化的最优策略(π),以及对应策略下各状态的最优状态价值(v)。
二、影响最优策略的关键因素(实验验证)¶
以“网格世界”为实验场景(包含目标区域、禁止区域与边界),验证奖励函数(r) 和折扣因子(γ) 对最优策略的直接影响(系统模型通常由环境决定,难以改变,故暂不讨论)。
1. 折扣因子(γ)的影响:控制智能体“短视/远视”特性¶
折扣因子的大小直接决定智能体对未来奖励的权重分配,进而改变策略选择,实验分三种典型场景:
| 折扣因子(γ) | 智能体特性 | 策略表现(网格世界案例) | 核心原因 |
|---|---|---|---|
| 0.9(较大) | 远视:重视长期总收益 | 主动穿过禁止区域(短期承受-1惩罚),快速抵达目标区域 | 虽然穿过禁止区域会有短期惩罚,但能更早获得目标区域的长期奖励;γ较大时,未来奖励折扣幅度小,总收益高于绕路方案。 |
| 0.5(中等) | 中性:平衡短期与长期收益 | 绕开禁止区域,选择更长路径前往目标区域 | 此时绕路的短期无惩罚,叠加未来奖励的折扣效应后,总收益超过穿过禁止区域的方案,策略自然倾向规避风险。 |
| 0(极小) | 极端短视:仅关注即时奖励 | 原地不动或仅选择即时奖励≥0的动作,无法到达目标区域 | 当γ=0时,未来奖励经折扣后全部为0,总收益等价于即时奖励;智能体仅规避即时惩罚(如撞边界、进禁止区),完全忽略长期目标。 |
2. 奖励函数(r)的影响:调整奖惩权重引导行为¶
通过改变“禁止区域”的惩罚力度,可直接反转智能体的策略选择:
- 原设置(禁止区域r=-1,γ=0.9):智能体选择穿过禁止区域,以短期小惩罚换取长期高收益。
- 调整后(禁止区域r=-10,γ=0.9):智能体选择绕开禁止区域,因短期大惩罚的代价远超长期奖励收益,策略随奖惩权重变化而反转。
三、最优策略的不变性:奖励线性变换不改变策略¶
1. 核心结论¶
若对所有奖励进行线性变换(即\(\(r' = \alpha \cdot r + \beta\)\),其中\(\alpha > 0\)为正的缩放因子,\(\beta\)为偏置量),则最优策略(π*)保持不变,仅最优状态价值(v*)会同步发生线性变换。
变换公式为\(v' = \alpha \cdot v^* + \frac{\beta}{1-\gamma}\mathbb{1}\),其中\(\gamma\)为discounted rate,\(\mathbb{1} =[1,1,...,1]^T\)
### Box 3.5: Proof of Theorem 3.6
For any policy $ \pi $, define $ r_\pi = [\ldots, r_\pi(s), \ldots]^T $ where
If $ r \to \alpha r + \beta $, then $ r_\pi(s) \to \alpha r_\pi(s) + \beta $ and hence $ r_\pi \to \alpha r_\pi + \beta \mathbf{1} $, where $ \mathbf{1} = [1, \ldots, 1]^T $. In this case, the BOE becomes
We next solve the new BOE in (3.9) by showing that $ v' = \alpha v^ + c \mathbf{1} $ with $ c = \beta/(1-\gamma) $ is a solution of (3.9). In particular, substituting $ v' = \alpha v^ + c \mathbf{1} $ into (3.9) gives
where the last equality is due to the fact that $ P_\pi \mathbf{1} = \mathbf{1} $. The above equation can be reorganized as
which is equivalent to
Since $ c = \beta/(1-\gamma) $, the above equation is valid and hence $ v' = \alpha v^ + c \mathbf{1} $ is the solution of (3.9). Since (3.9) is the BOE, $ v' $ is also the unique solution. Finally, since $ v' $ is an affine transformation of $ v^$, the relative relationships between the action values remain the same. Hence, the greedy optimal policy derived from $ v' $is the same as that from $ v^ $: $ \arg\max_{\pi \in \Pi} (r_\pi + \gamma P_\pi v') $ is the same as $ \arg\max_\pi (r_\pi + \gamma P_\pi v^) $.
2. 原理分析¶
最优策略的选择依赖动作价值(Q值)的相对大小,而非绝对数值:
- 线性变换后,所有动作的Q值会同步进行缩放和偏移(例如原Q值为[1,2,1],变换后可能为[100,200,100]),但“最大值对应的动作”始终不变,因此策略不会改变。
- 示例验证:
- 原奖励规则:边界/禁止区r=-1,目标区域r=+1,其他步骤r=0。
- 线性变换(r'=r+1):边界/禁止区r'=0,目标区域r'=2,其他步骤r'=1。
- 结果:最优策略完全一致,仅状态价值数值发生变化(如原v=5,变换后\(\(v' = 5 + \frac{1}{1-0.9} = 15\)\))。
四、最优策略的“避绕性”:为何不做无意义绕路?¶
1. 问题背景¶
若“非目标/非禁止区域”的奖励r=0(无步数惩罚),理论上智能体可选择绕路(如s1→s2→s1→目标),但最优策略仍倾向最短路径,核心原因与折扣因子(γ)相关。
2. 核心原因:折扣因子的“时间惩罚”效应¶
绕路会延迟智能体到达目标区域的时间,导致“目标奖励”的折扣次数增加:
- 假设γ=0.9,最短路径2步到达目标,目标奖励折后为\(\(1 \cdot \gamma^2 = 0.81\)\);若绕路4步到达,目标奖励折后为\(\(1 \cdot \gamma^4 \approx 0.656\)\),后者收益显著更低。
- 结论:即使无明确“步数惩罚”,γ的存在也会对“延迟奖励”产生天然的折扣效应,使最优策略倾向选择最短路径,避免无意义绕路。
五、贝尔曼最优公式的基础性质(回顾与补充)¶
- 解的存在性与唯一性:
- 最优状态价值(v):在马尔可夫决策过程(MDP)框架下,由压缩映射定理(Contraction Mapping Theorem) 可证明其存在且唯一。
- 最优策略(π):对应最优状态价值(v)的最优策略不一定唯一,可能存在多个策略能使状态价值达到v。 - 求解方法:已介绍的迭代类算法(值迭代、策略迭代)可通过反复更新状态价值(v)和策略(π),逐步收敛到最优解(v和π)。
六、关键总结¶
- 最优策略由奖励函数(r)、折扣因子(γ)、系统模型(P) 共同决定,其中r和γ是人工可调控的核心参数,需根据任务目标设计。
- 折扣因子(γ)控制智能体“短视/远视”特性:γ越大,智能体越重视长期收益;γ越小,越关注即时收益。
- 奖励的线性变换不改变最优策略,仅影响状态价值数值,可利用此特性简化奖励设计(如将负奖励调整为非负,降低计算复杂度)。
- 折扣因子(γ)具有天然的“反绕路”作用,无需额外设计“步数惩罚”,即可引导智能体选择最短路径。