有模型预测和控制

有模型

已知环境信息，状态转移概率和奖励函数，就变成一个状态转移序列决策问题。

熊出现：人可以逃跑或装死
人装死：熊就一定会走开
熊发怒：人逃跑，成功概率0.1，失败概率0.9

但现实情况是，很难知道环境信息，压根不知道熊到底会做什么，一切都未知，需要免模型算法。

有模型预测-策略评估

动态规划方法

DP特性

动态规划的特性

动态规划问题有如下3个特性

最优子结构/满足最优化原理
- 问题可拆分为多个子问题，问题的最优解包含的子问题的解也是最优的。
  - 第一步：执行最优动作，后续每一步：都按最优策略去做，最终结果也是最优。
- 递归形态，当前状态与未来状态有迭代关系。
$G_{t} = r_{t + 1} + γ \cdot G_{t + 1}$
重叠子问题
- 子问题多次出现，其结果能被重复使用，可保存首次计算结果供后续使用
- 存储状态价值 $V (s)$
无有效性
- 某阶段状态不受后面决策的影响，只有当前状态有关，即马尔科夫性质。

适用RL场景

要求环境已知，适用于规划问题，而非学习问题

DP做策略评估

使用动态规划做策略评估

核心思想

给定策略，通过贝尔曼期望方程来多次迭代，逐渐收敛价值函数
DP算法本质：通过求解贝尔曼方程，来找到最优策略。
求解出每个 $V_{π} (s)$ ，k为迭代次数。
- 当前状态的最优价值依赖于下一个状态的最有价值。
- 自举：用一个估计值去更新另一个估计值。
  - 通过最大化即时奖励+下一个状态的最优价值，保证当前最优决策是建立在后续最优决策基础上的。

\begin{array}{l} V_{π}^{k + 1} (s) & = \sum_{a \in A} π (a ∣ s) \cdot Q_{π} (s, a) \\ = \sum_{a \in A} π (a ∣ s) \cdot (R (s, a) + γ \cdot \sum_{s^{'} \in S} p (s^{'} ∣ s, a) \cdot V_{π}^{k} (s^{'})) \end{array}

V_{π}^{k + 1} (s) = \sum_{a \in A, s^{'} \in S} π (a ∣ s) \cdot p (s^{'} ∣ s, a) (r (s, a, s^{'}) + γ \cdot V_{π}^{k} (s^{'}))

给定策略后，可以把其简化为马尔可夫奖励过程，去掉a

\begin{array}{l} V_{π}^{k + 1} (s) & = Q_{π} (s, π (s)) \\ = R (s) + γ \cdot \sum_{s^{'} \in S} p (s^{'} ∣ s) \cdot V_{π}^{k} (s^{'}) \end{array}

斯坦福GridWorld策略评估Case

有模型控制-寻找最佳策略

最佳价值和最佳策略

最佳价值函数和最佳策略

核心思想：搜索一种策略，让每个状态的价值函数都取得最大值
最佳价值

V^{*} (s) = max_{π} V_{π} (s)

最佳策略

π^{*} (s) = \arg max_{π} V_{π} (s)

通过最佳价值函数来获取最佳策略

π^{*} (a ∣ s) = {\begin{cases} 1, & a = \arg max_{a \in A} Q^{*} (s, a) \\ 0, & 其 他 \end{cases}

最佳策略是稳定的，但不一定是唯一的，可能多种动作取得相同价值

最佳策略搜索方法

主要方法

穷举法：不现实
策略迭代：
价值迭代：

策略迭代方法

策略迭代算法

策略迭代

核心思想

策略评估：评估当前策略价值函数，推算出Q函数
策略改进：通过对Q函数做贪心搜索，来改进策略
不断踢皮球，评估策略、改进策略，一直迭代，直到收敛

策略评估

同上文，迭代求解V函数和Q函数

\begin{array}{l} V_{π_{k + 1}} (s) & = \sum_{a \in A} π (a ∣ s) \cdot (R (s, a) + γ \cdot \sum_{s^{'} \in S} p (s^{'} ∣ s, a) \cdot V_{π_{k}} (s^{'})) \end{array}

Q_{π_{k + 1}} (s, a) = R (s, a) + γ \sum_{s^{'} \in S} p (s^{'} ∣ s, a) \cdot V_{π_{k}} (s^{'})

策略改进

根据Q函数贪心改进策略，会变得更好或不变，但不会变差

π_{k + 1} (s) = \arg max_{a} Q_{π_{k}} (s, a)

当停止改进后，取让Q函数取得最大值的动作，Q函数就变成V函数了

Q_{π} (s, π^{'} (s)) = max_{a \in A} Q_{π} (s, a) = Q_{π} (s, π (s)) = V_{π} (s)

贝尔曼最优方程

策略改进结束后

贝尔曼最优方程，最佳策略下的状态价值必须等于采取最佳动作回报的期望。

V_{π} (s) = max_{a \in A} Q (s, a)

V^{*} (s) = max_{a \in A} Q^{*} (s, a)

当马尔可夫决策过程满足贝尔曼最优方程时，整个状态已收敛，达最佳状态

Q函数贝尔曼最优方程

通过Q函数贝尔曼方程+上述简单最优方程得到

\begin{array}{l} Q^{*} (s, a) & = R (s, a) + γ \sum_{s^{'} \in S} p (s^{'} ∣ s, a) \cdot V^{*} (s^{'}) \\ = R (s, a) + γ \sum_{s^{'} \in S} p (s^{'} ∣ s, a) \cdot max_{a^{'}} Q^{*} (s^{'}, a^{'}) \end{array}

V函数贝尔曼最优方程

V^{*} (s) = max_{a} (R (s, a) + γ \cdot \sum_{s^{'} \in S} p (s^{'} ∣ s, a) \cdot V^{*} (s^{'}))

价值迭代方法

最优性原理

由动态规划策略评估可知

当前动作最优，未来每一步动作都是最优，那么最终结果就是最优的。

最优性原理

策略 $π (a ∣ s)$ 在状态 $s$ 达到最优价值，意味着从 $s$ 能到达的每一个状态 $s^{'}$ ，该策略下都达到最有价值

V_{π} (s) = V^{*} (s) \Rightarrow V_{π} (s^{'}) = V^{*} (s^{'})

价值迭代算法

确认性价值迭代

核心思想

通过贝尔曼最优方程来迭代计算 $V_{π} (s)$ ，当所有子问题 $V^{*} (s^{'})$ 达到最优时， $V_{π} (s)$ 也就达到最优
无需策略，直接迭代贝尔曼最优方程，价值函数就能趋向于最佳价值函数，最后取其策略即可

V (s) \leftarrow max_{a} (R (s, a) + γ \cdot \sum_{s^{'} \in S} p (s^{'} ∣ s, a) \cdot V (s^{'}))

价值迭代类似于价值的反向传播
- 每次迭代做一次传播，中间的策略和价值函数没有意义
- 像是从一个状态反向传播到其他状态的过程，每次迭代只影响与之相关状态的过程

关键流程

所有状态初始化： $V_{0} (s) = 0$ ，
从k=1迭代到H次，每次迭代如下：
$Q_{k + 1} (s, a) = R (s, a) + γ \cdot \sum_{s^{'} \in S} p (s^{'} ∣ s, a) \cdot V_{k} (s^{'})$ $V_{k + 1} (s) = max_{a} Q_{k + 1} (s, a)$
迭代完成后，提取最优策略

π (s) = \arg max_{a} (R (s, a) + γ \cdot \sum_{s^{'} \in S} p (s^{'} ∣ s, a) \cdot V (s^{'}))

有模型预测和控制

有模型 ​

有模型预测-策略评估 ​

动态规划方法 ​

DP特性 ​

DP做策略评估 ​

有模型控制-寻找最佳策略 ​

策略迭代方法 ​

策略迭代算法 ​

贝尔曼最优方程 ​

价值迭代方法 ​

最优性原理 ​

价值迭代算法 ​

有模型

有模型预测-策略评估

动态规划方法

DP特性

DP做策略评估

有模型控制-寻找最佳策略

策略迭代方法

策略迭代算法

贝尔曼最优方程

价值迭代方法

最优性原理

价值迭代算法