马尔可夫决策过程

马尔可夫过程

马尔可夫性质

定义

给定历史状态 $s_{0}, s_{1}, \dots, s_{t}$ 的情况下，未来 $s_{t + 1}$ 只与当前状态 $s_{t}$ 有关，而与历史无关
即未来的转移和过去是独立的

p (s_{t + 1} ∣ s_{t}) = p (s_{t + 1} ∣ \underset{h_{t}}{\underset{⏟}{s_{0}, s_{1}, \dots, s_{t}}})

优点

允许我们在不考虑完整系统历史的情况下，预测和控制智能体行为

实际情况

很多例子，如棋牌游戏，是不符合马尔可夫性质的，不仅依赖当前，还依赖历史状态。

马尔可夫链/马尔可夫过程

马尔可夫链

离散时间的马尔可夫过程，是最简单的马尔可夫过程

s_{0}, s_{1}, \dots, s_{t}

状态转移矩阵

状态转移概率： $p (s_{t + 1} = s^{'} ∣ s_{t} = s)$ ，状态从s转移到 $s^{'}$ 的概率 $p_{s s^{'}}$ 。
状态转移矩阵：有限状态的马尔可夫过程

P_{s s^{'}} = [\begin{matrix} p_{11} & p_{12} & \dots p_{1 n} \\ p_{21} & p_{22} & \dots p_{2 n} \\ ⋮ & ⋮ & ⋮ \\ p_{n 1} & p_{n 2} & \dots p_{n n} \end{matrix}]

马尔可夫奖励过程

定义

在马尔可夫过程的基础上，仅增加奖励函数，R是一个期望

s_{1}, r_{1}, s_{2}, r_{2}, \dots, s_{t}, r_{t}

奖励、回报、价值函数

即时奖励

奖励 $r_{t}$ ：环境给出的标量反馈信号，智能体到达某状态，获得的即时奖励。
反应智能体在某状态采取某个动作表现如何

回报

范围horizon：一个回合的长度
回报 $G_{t}$ ：未来奖励的逐步叠加
- 是面向未来、无限累计的计算，可通过贝尔曼方程 迭代计算。

G_{t} = r_{t + 1} + r_{t + 2} + \dots + r_{T}

折扣回报：对未来奖励打折扣，更希望得到现在的奖励

G_{t} = r_{t + 1} + γ r_{t + 2} + γ^{2} r_{t + 3} + \dots = \sum_{k = 0}^{\infty} γ^{k} r_{t + k + 1} = r_{t + 1} + γ G_{t + 1}

折扣因子 $γ$ ：对未来奖励的重要程度，平衡当前奖励和未来奖励。
- $γ = 0$ ，单步奖励，只关注当前； $γ$ 接近1，对所有未来奖励都同等重要
- 越往后 $γ^{k}$ 越小，越后面的奖励对当前价值的影响，会越来越小

价值

价值函数：即时奖励+ 未来状态的折扣价值。
状态价值函数/V函数：回报的期望，进入某状态后，可能获得多大的回报

V^{t} (s) = E [G_{t} ∣ s_{t} = s]

状态动作价值函数/Q函数：回报的期望，在某状态采取某动作，可能获得多大回报

Q^{t} (s, a) = E [G_{t} ∣ s_{t} = s, a_{t} = a]

更多VQ见下文

为什么能用未来总奖励评价当前动作的好坏?

现实世界的奖励往往是延迟的，强化学习需要学习远期的奖励
后续有可能收到的奖励加起来，才算作当前动作的Q值，但不能太远，需要使用折扣因子

使用折扣因子的原因

某些马尔科夫过程是带环的，避免无穷奖励
未来评估不一定准确，存在不确定性
可能更希望立刻就能得到奖励，而不是后面才得到奖励
更希望得到即时奖励

V函数的贝尔曼方程

V函数贝尔曼方程

V函数的贝尔曼方程

定义当前状态和未来状态之间的迭代关系，即时奖励+未来奖励的折扣总和。

V (s) = \underset{当 前 s 即 时 奖 励}{\underset{⏟}{R (s)}} + \underset{未 来 奖 励 的 折 扣 总 和}{\underset{⏟}{γ \sum_{s^{'} \in S} p (s^{'} ∣ s) \cdot V (s^{'})}}

矩阵形式：状态特别多时，求解特别困难。

V = R + γ PV

V函数贝尔曼方程的证明过程

推导过程：见下文
关键内容：证明如下公式 + 数学全期望公式 + $G_{t}$ 定义

马尔可夫奖励过程价值的迭代算法

状态太多时，不太能直接使用矩阵求逆求解价值函数，一般使用迭代算法来进行求解。包括蒙特卡洛方法，动态规划方法，时序差分方法等。

蒙特卡洛方法

核心思想

从某状态开始，按照状态转移矩阵，随波逐流产生多条轨迹，每条轨迹算出回报g
对多条轨迹的回报g做平均，即得到状态价值

V (s) = \frac{1}{N} \sum_{i = 1}^{N} G (τ_{i}) = \frac{1}{N} \sum_{i = 1}^{N} \sum_{t = 0}^{T - 1} γ^{t} r_{t + 1}

动态规划方法

核心思想

通过动态规划+自举的方法，一直迭代贝尔曼方程，直到价值函数收敛，得到状态价值。
动态规划：用未来的价值估计 来更新 现在的价值估计
自举(bootstrap)/强化：根据其他估算值来更新 估算值；用下一个状态的价值来更新当前状态的价值。

算法过程

直到更新差值小于阈值时，就可以停止更新， $‖ V - V^{'} ‖ < ϵ$
大于阈值时，对所有状态 $s \in S$ ，执行贝尔曼方程进行迭代更新

V^{'} (s) = R (s) + γ \sum_{s^{'} \in S} p (s^{'} ∣ s) \cdot V (s^{'})

马尔可夫决策过程

关键定义

未来状态同时依赖于当前状态和智能体在当前状态采取的动作

p (s_{t + 1} ∣ s_{t}, a_{t}) = p (s_{t + 1} ∣ h_{t}, a_{t})

奖励函数：由状态和当前动作决定
$R (s_{t} = s, a_{t} = a) = E [r_{t} ∣ s_{t} = s, a_{t} = a]$
轨迹
$s_{1}, a_{1}, r_{1}, s_{2}, a_{2}, r_{2}, \dots, s_{t}, a_{t}, r_{t}$

核心思想

马尔可夫决策过程：寻找一个最佳策略，使价值函数最大

策略

定义了在某状态该采取什么动作，可以输出动作的概率、也可以输出确定的动作值。

π (a ∣ s) = p (a_{t} = a ∣ s_{t} = s)

可以是随机性策略 或 确定性策略
如果已知马尔可夫决策过程和策略 $π$ ，就可将其转换成马尔可夫奖励过程

马尔可夫决策过程4元组：

状态转移和序列决策：

马尔可夫决策、奖励过程对比

马尔可夫决策过程

马尔可夫过程、马尔可夫奖励过程：状态转移直接由状态决定的
马尔可夫决策过程：状态转移由状态和当前动作决定的，在当前状态和未来状态间多了一层决策性

VQ函数贝尔曼方程及其转换关系

贝尔曼方程奇妙之处就在于，我们把一个无限累加公式，变成了一个有限的递归公式。我们进而可以用迭代的方式，去求解这个状态方程。

价值函数基础定义

动作价值函数

状态价值函数/V函数

在状态s，回报的期望。期望和策略相关

V_{π} (s) = E [G_{t} ∣ s_{t} = s]

动作价值函数/Q函数

在状态s采取某动作a，可能得到回报的期望。

Q^{t} (s, a) = E [G_{t} ∣ s_{t} = s, a_{t} = a]

贝尔曼期望方程

贝尔曼期望方程

贝尔曼期望方程：当前状态和未来状态的关联关系
V/Q函数：当前即时奖励 + 后续状态的折扣回报。

V函数的贝尔曼期望方程

V_{π} (s) = E_{π} [r_{t + 1} + γ \cdot V_{π} (s_{t + 1}) ∣ s_{t} = s]

Q函数的贝尔曼期望方程

Q_{π} (s, a) = E_{π} [r_{t + 1} + γ \cdot Q_{π} (s_{t + 1}, a_{t + 1}) ∣ \underset{条 件}{\underset{⏟}{s_{t} = s, a_{t} = s}}]

备份图

备份图定义了未来下一时刻的价值函数与上一时刻价值函数的关联关系。

V函数

1. 基础定义

从状态s开始，执行策略 $π$ ，获得回报的期望。

V_{π} (s) = E [G_{t} ∣ s_{t} = s]

2. V函数的贝尔曼方程

贝尔曼期望方程

V_{π} (s) = E_{π} [r_{t + 1} + \underset{未 来 状 态}{\underset{⏟}{γ \cdot V_{π} (s_{t + 1})}} ∣ \underset{条 件}{\underset{⏟}{s_{t} = s}}]

通过V计算V，V函数的贝尔曼方程，选择所有可能a的均值

V_{π} (s) = \sum_{a \in A} π (a ∣ s) \cdot \underset{Q 函 数 的 贝 尔 曼 方 程}{\underset{⏟}{(R (s, a) + γ \cdot \sum_{s^{'} \in S} p (s^{'} ∣ s, a) \cdot V_{π} (s^{'}))}}

V_{π} (s) = \sum_{a, s^{'}} π (a ∣ s) \cdot p (s^{'} ∣ s, a) \cdot (r (s, a, s^{'}) + γ \cdot V_{π} (s^{'}))

通过Q计算V，策略 $π$ 和状态价值之间，通过动作价值函数来联系。

\begin{array}{l} V_{π} (s) & = \sum_{a \in A} π (a ∣ s) \cdot Q_{π} (s, a) \end{array}

V函数的贝尔曼方程推导过程 ⭐

\begin{array}{l} V_{π} (s) & = E [\underset{当 前 状 态}{\underset{⏟}{r (s, a, s^{'})}} + \underset{未 来 状 态}{\underset{⏟}{γ V_{π} (s^{'})}}] \\ = \underset{执 行 动 作 a}{\underset{⏟}{\sum_{a \in A} π (a ∣ s)}} \cdot \underset{状 态 转 移}{\underset{⏟}{\sum_{s^{'} \in S} p (s^{'} ∣ s, a)}} \cdot [\underset{当 前 即 时 奖 励}{\underset{⏟}{r (s, a, s^{'})}} + \underset{未 来 折 扣 奖 励}{\underset{⏟}{γ \cdot V_{π} (s^{'})}}] \\ = \sum_{a, s^{'}} π (a ∣ s) \cdot p (s^{'} ∣ s, a) \cdot [r (s, a) + γ \cdot V_{π} (s^{'})] \\ = R (s) + γ \cdot \sum_{s^{'} \in S} p (s^{'} ∣ s) \cdot V (s^{'}) \end{array}

3. V函数的贝尔曼最优方程：直接选择回报最大的a

V^{*} (s) = max_{a} Q^{*} (s, a) = max_{a} (R (s, a) + γ \cdot \sum_{s^{'} \in S} p (s^{'} ∣ s, a) \cdot V^{*} (s^{'}))

V_{π_{*}} (s) = max_{a} Q_{π_{*}} (s, a) = max_{a} \sum_{s^{'} \in S} p (s^{'} ∣ s, a) (r (s, a, s^{'}) + γ \cdot V_{π_{*}} (s^{'}))

V函数计算分解

Q函数

1. Q函数定义：从状态s开始，选择动作a，依照策略 $π$ 执行，获得回报的期望。

Q_{π} (s, a) = E [G_{t} ∣ s_{t} = s, a_{t} = a]

2. Q函数的贝尔曼期望方程

Q函数贝尔曼期望方程

Q_{π} (s, a) = E_{π} [r_{t + 1} + \underset{未 来 状 态}{\underset{⏟}{γ \cdot V_{π} (s_{t + 1})}} ∣ \underset{条 件}{\underset{⏟}{s_{t} = s, a_{t} = a}}]

通过V计算Q，Q函数贝尔曼方程，所有可能s的均值

Q_{π} (s, a) = R (s, a) + γ \cdot \sum_{s^{'} \in S} p (s^{'} ∣ s, a) \cdot V_{π} (s^{'})

Q_{π} (s, a) = \sum_{s^{'} \in S} p (s^{'} ∣ s, a) \cdot (r (s, a, s^{'}) + γ \cdot V (s^{'}))

通过Q计算Q，Q函数自身迭代计算

\begin{array}{l} Q_{π} (s, a) & = R (s, a) + γ \cdot \sum_{s^{'} \in S} p (s^{'} ∣ s, a) \cdot \sum_{a^{'} \in A} π (a^{'} ∣ s^{'}) \cdot Q_{π} (s^{'}, a^{'}) \end{array}

Q_{π} (s, a) = \sum_{s^{'} \in S} p (s^{'} ∣ s, a) \cdot (r (s, a, s^{'}) + γ \cdot \sum_{a^{'} \in A} π (a^{'} ∣ s^{'}) \cdot Q_{π} (s^{'}, a^{'}))

3. Q函数的贝尔曼最优方程，直接选择最大回报的a

\begin{array}{l} Q^{*} (s, a) & = R (s, a) + γ \sum_{s^{'} \in S} p (s^{'} ∣ s, a) \cdot max_{a^{'}} Q^{*} (s^{'}, a^{'}) \end{array}

Q_{π_{*}} (s, a) = \sum_{s^{'} \in S} p (s^{'} ∣ s, a) \cdot (r (s, a, s^{'}) + γ \cdot max_{a^{'}} Q_{π_{*}} (s^{'}, a^{'}))

Q函数计算分解

贝尔曼方程推导过程

V函数贝尔曼方程推导

数学全期望公式

设 $A_{i}$ 是样本空间的有限或可数划分

E [X] = \sum_{i} p (A_{i}) \cdot E [X ∣ A_{i}]

V函数贝尔曼方程推导过程

贝尔曼方程

定义当前状态和未来状态之间的迭代关系，即时奖励+未来奖励的折扣总和。

V (s) = \underset{即 时 奖 励}{\underset{⏟}{R (s)}} + \underset{未 来 奖 励 的 折 扣 总 和}{\underset{⏟}{γ \sum_{s^{'} \in S} p (s^{'} ∣ s) \cdot V (s^{'})}}

V函数贝尔曼方程证明过程

\begin{array}{l} V (s) & = E [G_{t} ∣ s_{t} = s] \\ = E [r_{t + 1} + γ r_{t + 2} + γ^{2} r_{t + 3} + \dots ∣ s_{t} = s] \\ = E [r_{t + 1} ∣ s_{t} = s] + γ E [r_{t + 2} + γ r_{t + 3} + γ^{2} r_{t + 3} + \dots ∣ s_{t} = s] \\ = R (s) + γ E [G_{t + 1} ∣ s_{t} = s] \\ = R (s) + γ E [V_{t + 1} ∣ s_{t} = s] \\ = R (s) + γ \sum_{s^{'} \in S} p (s^{'} ∣ s) \cdot V (s^{'}) \end{array}

这样也可以

\begin{array}{l} V (s) & = E_{π} [G_{t} ∣ s_{t} = s] \\ = E_{π} [r_{t} + γ G_{t + 1} ∣ s_{t} = s] \\ = E_{π} [r_{t} ∣ s_{t} = s] + γ E_{π} [G_{t + 1} ∣ s_{t} = s] \\ = \sum_{a, s^{'}} π (a ∣ s) \cdot p (s^{'} ∣ s, a) \cdot r (s, a, s^{'}) + γ E_{π} [G_{t + 1} ∣ s_{t} = s] \end{array}

关键内容：证明如下公式 + 数学全期望公式 + $G_{t}$ 定义

E [V (s_{t + 1}) ∣ s_{t}] = E [E [G_{t + 1} ∣ s_{t + 1}] ∣ s_{t}] = E [G_{t + 1} ∣ s_{t}]

V函数贝尔曼最优方程推导

\begin{array}{l} V^{*} (s) & = max_{a} Q^{*} (s, a) = max_{a} E [G_{t} ∣ s_{t} = s, a_{t} = a] \\ = max_{a} E [r_{t + 1} + γ G_{t + 1} ∣ s_{t} = s, a_{t} = a] \\ = max_{a} E [r_{t + 1} + γ V^{*} (s_{t + 1}) ∣ s_{t} = s, a_{t} = a] \\ = max_{a} E [r_{t + 1}] + max_{a} [γ V^{*} (s_{t + 1}) ∣ s_{t} = s, a_{t} = a] \\ = max_{a} R (s, a) + max_{a} γ \sum_{s^{'} \in S} p (s^{'} ∣ s, a) \cdot V^{*} (s^{'}) \\ = max_{a} \underset{Q^{*} (s, a)}{\underset{⏟}{(R (s, a) + \sum_{s^{'} \in S} p (s^{'} ∣ s, a) \cdot V^{*} (s^{'}))}} \end{array}

Q函数贝尔曼方程推导

Q函数的贝尔曼方程推导过程

Q函数贝尔曼方程

Q (s, a) = R (s, a) + γ \sum_{s^{'} \in S} p (s^{'} ∣ s, a) \cdot V (s^{'})

推导过程

从期望公式开始推导，同V函数推导过程

\begin{array}{l} Q (s, a) & = E [G_{t} ∣ s_{t} = s, a_{t} = a] \\ = E [r_{t + 1} + γ r_{t + 2} + γ^{2} r_{t + 3} + \dots ∣ s_{t} = s, a_{t} = a] \\ = E [r_{t + 1} ∣ s_{t} = s, a_{t} = a] + γ E [r_{t + 2} + γ r_{t + 3} + \dots ∣ s_{t} = s, a_{t} = a] \\ = R (s, a) + γ E [G_{t + 1} ∣ s_{t} = s, a_{t} = a] \\ = R (s, a) + γ E [V_{t + 1} ∣ s_{t} = s, a_{t} = a] \\ = R (s, a) + γ \sum_{s^{'} \in S} p (s^{'} ∣ s, a) \cdot V (s^{'}) \end{array}

预测和控制

预测/策略评估

核心：给定策略，求解价值函数 $V_{π}$ ，评估策略的价值
输入：马尔可夫决策过程 $< S, A, P, R, γ >$ 和策略 $π$
输出：价值函数 $V_{π}$

控制/寻找最佳策略

核心：不给定不限制策略，要去寻找最佳策略和最佳价值
输入：马尔可夫决策过程 $< S, A, P, R, γ >$
输出：最佳价值函数 $V^{*}$ 、最佳策略 $π^{*}$

预测和控制的关系

预测方法，是为了帮助解决控制问题做铺垫。
为了解决控制问题，只需要直接预测Q函数即可，在决策时选择最大Q值对应的动作即可。

预测：给定策略，等概率上下左右移动，求解价值函数

控制：不给定策略，直接求解最优价值，输出对应的策略。

马尔可夫决策过程

马尔可夫过程 ​

马尔可夫性质 ​

马尔可夫链/马尔可夫过程 ​

状态转移矩阵 ​

马尔可夫奖励过程 ​

马尔可夫奖励过程 ​

奖励、回报、价值函数 ​

V函数的贝尔曼方程 ​

马尔可夫奖励过程价值的迭代算法 ​

马尔可夫决策过程 ​

马尔可夫决策过程 ​

马尔可夫决策、奖励过程对比 ​

VQ函数贝尔曼方程及其转换关系 ​

价值函数基础定义 ​

贝尔曼期望方程 ​

V函数 ​

Q函数 ​

贝尔曼方程推导过程 ​

V函数贝尔曼方程推导 ​

V函数贝尔曼最优方程推导 ​

Q函数贝尔曼方程推导 ​

预测和控制 ​

马尔可夫过程

马尔可夫性质

马尔可夫链/马尔可夫过程

状态转移矩阵

马尔可夫奖励过程

马尔可夫奖励过程

奖励、回报、价值函数

V函数的贝尔曼方程

马尔可夫奖励过程价值的迭代算法

马尔可夫决策过程

马尔可夫决策过程

马尔可夫决策、奖励过程对比

VQ函数贝尔曼方程及其转换关系

价值函数基础定义

贝尔曼期望方程

V函数

Q函数

贝尔曼方程推导过程

V函数贝尔曼方程推导

V函数贝尔曼最优方程推导

Q函数贝尔曼方程推导

预测和控制