强化学习算法的简单总结，主要包括基于值函数/策略函数的学习方法、Actor-Critic算法。

强化学习的目标

强化学习的目标是学习到一个策略 $π_{θ} (a ∣ s)$ ，来最大化这个策略的期望回报。希望智能体能够获得更多的回报。本质上是策略搜索。

J (θ) = E_{τ \sim p_{θ} (τ)} [\sum_{t = 0}^{T - 1} γ^{t} r_{t + 1}]

J (θ) = \int p_{θ} (τ) \cdot G (τ) d τ

基于值函数的学习方法

策略迭代

已知模型。利用贝尔曼方程（算均值）迭代计算出 $V (s)$ ，再算出 $Q (s, a)$ 。选择最好的动作 $a$ 去优化策略 $π (s)$ 。

\forall s, V^{π} (s) = E_{a \sim π (a ∣ s)} E_{s' \sim p (s' ∣ s, a)} [r (s, a, s') + γ V^{π} (s')]

Q^{π} (s, a) = E_{s' \sim p (s' ∣ s, a)} [r (s, a, s') + γ V^{π} (s')]

\forall s, π (s) = \arg max_{a} Q (s, a)

值迭代

已知模型。利用贝尔曼最优方程迭代算出 $V (s)$ ，再算出 $Q (s, a)$ 。选择最好的动作 $a$ 去优化策略 $π (s)$ 。

\forall s \in S, V^{*} (s) = max_{a} E_{s^{'} \sim p (s^{'} ∣ s, a)} [r (s, a, s^{'}) + γ V^{*} (s^{'})]

Q^{π} (s, a) = E_{s' \sim p (s' ∣ s, a)} [r (s, a, s') + γ V^{π} (s')]

\forall s, π (s) = \arg max_{a} Q (s, a)

蒙特卡罗

未知模型。从 $(s, a)$ 随机游走，采集N个样本。使用所有轨迹回报平均值近似估计 $Q (s, a)$ ，再去改进策略。重复，直至收敛。

Q^{π} (s, a) \approx {\hat{Q}}^{π} (s, a) = \frac{1}{N} \sum_{n = 1}^{N} G (τ^{(n)})

时序差分算法

无需知道完整轨迹就能对策略进行评估。

时序差分学习=动态规划-贝尔曼估计 $G (τ)$ + 蒙特卡罗采样-增量计算 $Q (s, a)$

贝尔曼估计轨迹总回报 $G (τ)$

G (τ) \leftarrow r (s, a, s^{'}) + γ \cdot Q (s^{'}, a^{'})

增量计算 $Q (s, a)$

Q (s, a) \leftarrow Q (s, a) + α \cdot (\underset{实 际 值}{\underset{⏟}{r + γ \cdot Q (s^{'}, a^{'})}} - \underset{预 期 值}{\underset{⏟}{Q (s, a)}})

SARSA

同策略的时序差分算法，是Q学习的改进。

1、当前状态 $s$ ，当前动作 $a$ （初始时选择 $a = π^{ϵ} (s)$ ，后续是更新得到的）

2、执行动作 $a$ ，得到新状态 $s^{'}$ ，得到奖励 $r (s, a, s^{'})$

4、依概率选择新动作 $a = π^{ϵ} (s^{'})$ ，新状态新动作的值函数： $Q (s^{'}, a^{'})$

5、更新Q函数

Q (s, a) \leftarrow Q (s, a) + α \cdot (r + γ \cdot Q (s^{'}, a^{'}) - Q (s, a))

6、更新状态和动作： $s = s^{'}, a = a^{'}$

Q学习

1、当前状态 $s$ ，选择当前动作 $a = π^{ϵ} (s)$

2、执行动作 $a$ 、得到新状态 $s^{'}$ 和奖励 $r (s, a, s^{'})$

3、不依概率选择新动作，而是直接选择最大的值函数 $max_{a^{'}} Q (s^{'}, a^{'})$

4、更新Q函数

Q (s, a) \leftarrow Q (s, a) + α \cdot (r + γ \cdot max_{a^{'}} Q (s^{'}, a^{'}) - Q (s, a))

5、更新状态： $s = s^{'}$

Q网络

使用神经网络 $Q_{ϕ} (s, a)$ 去近似值函数 $Q (s, a)$ 。两个问题：实际目标值不稳定；样本之间具有强相关性。

L (s, a, s^{'}; ϕ) = {(\underset{实 际 目 标 值}{\underset{⏟}{r + γ \cdot max_{a^{'}} Q_{ϕ} (s^{'}, a^{'})}} - \underset{网络值}{\underset{⏟}{Q_{ϕ} (s, a)}})}^{2}

DQN

深度Q网络：

目标网络冻结-稳定目标值。 $Q_{ϕ} (s, a)$ 训练网络， $Q_{\hat{ϕ}} (s, a)$ 目标值网络。定期更新参数 $\hat{ϕ} \leftarrow ϕ$
经验池的经验回放-去除样本相关性- 每次采集一条数据放入经验池，再从经验池取数据进行训练。

生成新数据加入经验池

1、状态 $s$ ，选择动作 $a = π^{ϵ} (s)$

2、执行动作 $a$ ，得到 $r$ 和 $s^{'}$

3、 $(s, a, r, s^{'})$ 加入经验池 $D$

采经验池中采样一条数据计算

1、从 $D$ 中采样一条数据， $(s s, a a, r r, s s^{'})$ 。（去除样本相关性）

2、计算实际目标值 $Q_{\hat{ψ}} (ss, aa)$ 。（解决目标值不稳定的问题）

Q_{\hat{ψ}} (ss, aa) = {\begin{cases} r r, & s s^{'} 为 终 态 \\ r r + γ \cdot max_{a^{'}} Q_{\hat{ϕ}} ({ss}^{'}, a^{'}), & 其 它 \end{cases}

3、损失函数如下，梯度下降法去训练Q网络

J (ϕ) = {(Q_{ϕ} (ss, aa) - y)}^{2} = {(Q_{ϕ} (ss, aa) - Q_{\hat{ψ}} (ss, aa))}^{2}

状态前进

$s \leftarrow s^{'}$

更新目标Q网络的参数

每隔C步更新： $\hat{ϕ} \leftarrow ϕ$

基于策略函数的学习方法

策略搜索本质上是一个优化问题，无需值函数可以直接优化策略。参数化的策略可以处理连续状态和动作。

策略梯度 ：是一种基于梯度的强化学习方法。

策略连续可微假设：假设 $π_{θ} (a ∣ s)$ 是一个关于 $θ$ 的连续可微函数。

最大化策略的期望回报

J (θ) = \int p_{θ} (τ) \cdot G (τ) d τ

策略梯度

\frac{\partial J (θ)}{\partial θ} ≜ E_{τ \sim p_{θ} (τ)} [\frac{\partial}{\partial θ} \log p_{θ} (τ) \cdot G (τ)]

\frac{\partial}{\partial θ} \log p_{θ} (τ) = \sum_{t = 0}^{T - 1} \frac{\partial}{\partial θ} \log π_{θ} (a_{t} ∣ s_{t})

\begin{aligned} \frac{\partial J (θ)}{\partial θ} & = E_{τ \sim p_{θ} (τ)} [\sum_{t = 0}^{T - 1} (\frac{\partial}{\partial θ} \log π_{θ} (a_{t} ∣ s_{t}) \cdot γ^{t} G (τ_{t : T}))] \end{aligned}

REINFORCE算法

期望用采样的方式来近似，随机采样N个轨迹。

\begin{aligned} \frac{\partial J (θ)}{\partial θ} & \approx \frac{1}{N} \sum_{n = 1}^{N} [\sum_{t = 0}^{T - 1} (\frac{\partial}{\partial θ} \log π_{θ} (a_{t}^{(n)} ∣ s_{t}^{(n)}) \cdot γ^{t} G (τ_{t : T}^{(n)}))] \end{aligned}

1、根据 $π_{θ} (a ∣ s)$ 生成一条完整的轨迹 ： $τ = s_{0}, a_{0}, s_{1}, a_{1}, \dots, s_{T - 1}, a_{T - 1}, s_{T}$

2、在每一时刻更新参数 (0~T)

先计算当前时刻的回报 $G (τ_{t : T})$ ，再更新参数：

θ \leftarrow θ + α \cdot γ^{t} G (τ_{t : T}) \cdot \frac{\partial}{\partial θ} \log π_{θ} (a_{t} ∣ s_{t})

缺点：

需要完整的轨迹
不同轨迹之间的策略梯度方差大，导致训练不稳定

带基准函数的REINFORCE算法

每个时刻 $t$ 的策略梯度

\frac{\partial J_{t} (θ)}{\partial θ} = E_{s_{t}, a_{t}} [α \cdot γ^{t} G (τ_{t : T}) \cdot \frac{\partial}{\partial θ} \log π_{θ} (a_{t} ∣ s_{t})]

基准函数

为了减小策略梯度的方差
引入与 $a_{t}$ 无关的基准函数 $b (s_{t}) = V (s_{t})$
越相关方差越小，所以选择值函数

每一时刻的策略梯度为：

\frac{\partial {\hat{J}}_{t} (θ)}{\partial θ} = E_{s_{t}, a_{t}} [α \cdot γ^{t} (G (τ_{t : T}) - b (s_{t})) \cdot \frac{\partial}{\partial θ} \log π_{θ} (a_{t} ∣ s_{t})]

1、根据策略 $π_{θ} (a ∣ s)$ 生成一条完整轨迹 ： $τ = s_{0}, a_{0}, s_{1}, a_{1}, \dots, s_{T - 1}, a_{T - 1}, s_{T}$

2、在每一时刻更新参数

计算当前时刻的轨迹回报 $G (τ_{t : T})$ ，再利用基准函数(值函数)进行修正，得到 $δ$

δ \leftarrow G (τ_{t : T}) - V_{ϕ} (s_{t})

更新值函数 $V_{ϕ} (s)$ 的参数 $ϕ$

ϕ \leftarrow ϕ + β \cdot δ \cdot \frac{\partial}{\partial ϕ} V_{ϕ} (s_{t})

更新策略函数 $π_{θ} (a ∣ s)$ 的参数 $θ$

θ \leftarrow θ + α \cdot γ^{t} δ \cdot \frac{\partial}{\partial θ} \log π_{θ} (a_{t} ∣ s_{t})

缺点：需要根据策略采集一条完整的轨迹。

Actor-Critic算法

演员-评论家算法结合了策略梯度和时序差分算法。不需要一条完整的轨迹，可以单步更新参数，无需等到回合结束才进行更新。

演员

根据 $s$ 和策略 $π_{θ} (a ∣ s)$ ，执行动作 $a$ ，环境变为 $s^{'}$ ，得到奖励 $r$

评论员

根据真实奖励 $r$ 和之前的标准，打分（估计回报）： $r + γ V_{ϕ} (s^{'})$ ，再调整自己的打分标准 $ϕ$ 。 $min_{ϕ} {(\hat{G} (τ_{t : T}) - V_{ϕ} (s_{t}))}^{2}$

使评分更加接近环境的真实回报。

演员

演员根据评论的打分，调整自己的策略 $π_{θ}$ ，争取下次做得更好。 $θ \leftarrow θ + α \cdot γ^{t} (G (τ_{t : T}) - V_{ϕ} (s_{t})) \cdot \frac{\partial}{\partial θ} \log π_{θ} (a_{t} ∣ s_{t})$

1. 执行策略，生成样本

s, a, r, s^{'}

2. 估计回报，生成 $δ$

G (s) = r + γ V_{ϕ} (s^{'}), δ = G (s) - V_{ϕ} (s)

3. 更新值函数和策略

ϕ \leftarrow ϕ + β \cdot δ \cdot \frac{\partial V_{ϕ} (s)}{\partial ϕ}

θ \leftarrow θ + α \cdot λ δ \cdot \frac{\partial}{\partial θ} \log π_{θ} (a ∣ s)

4. 更新折扣率和状态

λ \leftarrow λ \cdot γ, s \leftarrow s^{'}

(18年笔记)强化学习算法小结

强化学习的目标 ​

基于值函数的学习方法 ​

策略迭代 ​

值迭代 ​

蒙特卡罗 ​

时序差分算法 ​

SARSA ​

Q学习 ​

Q网络 ​

DQN ​

基于策略函数的学习方法 ​

策略梯度 ​

REINFORCE算法 ​

带基准函数的REINFORCE算法 ​

Actor-Critic算法 ​