RNN, LSTM, GRU图文介绍，RNN梯度消失问题等

LSTM经典描述

经典RNN模型

模型

人类在思考的时候，会从上下文、从过去推断出现在的结果。传统的神经网络无法记住过去的历史信息。

循环神经网络是指随着时间推移，重复发生的结构。它可以记住之前发生的事情，并且推断出后面发生的事情。用于处理时间序列很好。所有的神经元共享权值。如下图所示。

记住短期信息

比如预测“天空中有__”，如果过去的信息“鸟”离当前位置比较近，则RNN可以利用这个信息预测出下一个词为“鸟”

不能长期依赖

如果需要的历史信息距离当前位置很远，则RNN无法学习到过去的信息。这就是不能长期依赖的问题。

LSTM总览与核心结构

LSTM可以记住一些记忆，捕获长依赖问题
也可以让ERROR根据输入，依照不同强度流动

见后面GRU解决梯度消失

总览

所有的RNN有着重复的结构，如下图，比如内部是一个简单的tanh 层。

LSTM也是一样的，只不过内部复杂一些。

单元状态

单元状态像一个传送带，通过整个链向下运行，只有一些小的线性作用。信息就沿着箭头方向流动。

LSTM的门结构

LSTM的门结构 可以添加或者删除单元状态的信息，去有选择地让信息通过。它由sigmoid网络层 和 点乘操作组成。输出属于 $[0, 1]$ 之间，代表着信息通过的比例。

LSTM细节解剖

一些符号说明，都是 $t$ 时刻的信息：

$C_{t - 1}$ : 的单元状态
$h_{t}$ : 隐状态信息（也作单个神经元的输出信息）
$x_{t}$ : 输入信息
$o_{t}$ ：输出信息（输出特别的信息）

1 遗忘旧信息

对于 $C_{t - 1}$ 中的每一个数字， $h_{t - 1}$ 和 $x_{t}$ 会输出0-1之间的数来决定遗忘 $C_{t - 1}$ 中的多少信息。

2 生成候选状态和它的更新比例

生成新的状态：tanh层创建新的候选状态 ${\hat{C}}_{t}$

输入门：决定新的状态哪些信息会被更新 $i_{t}$ ，即候选状态 ${\hat{C}}_{t}$ 的保留比例。

3 新旧状态合并更新

生成新状态 $C_{t}$ ：旧状态 $C_{t - 1}$ + 候选状态 ${\hat{C}}_{t}$ 。

旧状态 $C_{t - 1}$ 遗忘不需要的，候选状态 ${\hat{C}}_{t - 1}$ 保留需要更新的，都是以乘积比例形式去遗忘或者更新。

4 输出特别的值

sigmoid：决定单元状态 $C_{t}$ 的哪些信息要输出。

tanh: 把单元状态 $C_{t}$ 的值变到 $[- 1, 1]$ 之间。

LSTM总结

核心结构如下图所示

要忘掉部分旧信息，旧信息 $C_{t - 1}$ 的遗忘比例 $f_{t}$

f_{t} = σ (W_{f} \cdot [h_{t - 1}, x_{t}] + b_{f})

新的信息来了，生成一个新的候选 ${\hat{C}}_{t}$

{\hat{C}}_{t} = \tanh (W_{C} \cdot [h_{t - 1}, x_{t}] + b_{C})

新信息留多少呢，新候选 ${\hat{C}}_{t}$ 的保留比例 $i_{t}$

i_{t} = σ (W_{i} \cdot [h_{t - 1}, x_{t}] + b_{i})

合并旧信息和新信息，生成新的状态信息 $C_{t}$

C_{t} = f_{t} * C_{t - 1} + i_{t} * {\hat{C}}_{t}

输出多少呢，单元状态 $C_{t}$ 的输出比例 $o_{t}$

o_{t} = σ (W_{o} \cdot [h_{t - 1}, x_{t}] + b_{o})

把 $C_{t}$ 化到 $[- 1, 1]$ 再根据比例输出

h_{t} = o_{t} * \tanh (C_{t})

图文简介描述LSTM

总体架构

单元架构

流水线架构

数据流动

圆圈叉叉代表着遗忘 $C_{t - 1}$ 的信息。乘以向量来实现，向量各个值在 $[0, 1]$ 之间。靠近0就代表着遗忘很多，靠近1就代表着保留很多。

框框加号代表着数据的合并。旧信息 $C_{t - 1}$ 和新候选信息 ${\hat{C}}_{t}$ 的合并。合并之后就得到新信息 $C_{t}$ 。

遗忘门

上一个LSTM的输出 $h_{t - 1}$ 和当前的输入 $x_{t}$ ，一起作为遗忘门的输入。 0是偏置 $b_{0}$ ，一起做个合并，再经过sigmoid生成遗忘权值 $f_{t}$ 信息，去遗忘 $C_{t - 1}$ 。

新信息门

新信息门决定着新信息对旧信息的影响力。和遗忘门一样 $h_{t - 1}$ 和 $x_{t}$ 作为输入。

sigmoid：生成新信息的保留比例。tanh：生成新的信息。

新旧信息合并

旧信息 $C_{t - 1}$ 和新信息 ${\hat{C}}_{t}$ 合并，当然分别先过遗忘阀门和更新阀门。

输出特别的值

把新生成的状态信息 $C_{t}$ 使用tanh变成 $(- 1, 1)$ 之间，然后经过输出阀门进行输出。

LSTM变体

观察口连接

传统LSTM阀门值比例的计算，即更新、遗忘、输出的比例只和 $h_{t - 1}, x_{t}$ 有关。

观察口连接，把观察到的单元状态也连接sigmoid上，来计算。即遗忘、更新比例和 $C_{t - 1}, h_{t - 1}, x_{t}$ 有关，输出的比例和 $C_{t}, h_{t - 1}, x_{t}$ 有关。

组队遗忘

如下图所示，计算好 $C_{t - 1}$ 的遗忘概率 $i_{t}$ 后，就不再单独计算新候选 ${\hat{C}}_{t}$ 的保留概率 $i_{t}$ 。而是直接由1减去遗忘概率得到更新概率。即 $i_{t} = 1 - f_{t}$ ，再去更新。

GRU

LSTM有隐状态 $h_{t}$ 和输出状态 $o_{t}$ ，而GRU只有 $h_{t}$ ，即GRU的隐状态和输出状态是一样的，都用 $h_{t}$ 表示。

更新门 $z_{t}$ 负责候选隐层 ${\hat{h}}_{t}$ 保留的比例， $1 - z_{t}$ 负责遗忘旧状态信息 $h_{t - 1}$ 的比例

z_{t} = σ (W_{z} \cdot [h_{t - 1}, x_{t}])

候选隐藏层 ${\hat{h}}_{t}$ 的计算由 $h_{t - 1}$ 和 $x_{t}$ 一起计算得到。所以计算 ${\hat{h}}_{t}$ 之前，要先计算 $h_{t - 1}$ 的重置比例。

重置门 $r_{t}$ 负责** $h_{t - 1}$ 对于生成新的候选 ${\hat{h}}_{t}$ 的作用比例**

r_{t} = σ (W_{r} \cdot [h_{t - 1}, x_{t}])

新记忆 ${\hat{h}}_{t}$ 的计算

{\hat{h}}_{t} = \tanh (W \cdot [r_{t} * h_{t - 1}, x_{t}])

最终记忆 $h_{t}$ 由 $h_{t - 1}$ 和 ${\hat{h}}_{t}$ 计算得到，分别的保留比例是 $1 - z_{t}$ 和 $z_{t}$

h_{t} = (1 - z_{t}) * h_{t - 1} + z_{t} * {\hat{h}}_{t}

更新门 $z_{t}$ ：过去的信息有多重要。 $z = 1$ ，则过去信息非常重要，完全保留下来

重置门 $r_{t}$ ：旧记忆对新记忆的贡献程度。 $r = 0$ ，则当前新记忆和旧记忆不想关。

RNN梯度问题

RNN梯度推导

简单点

\begin{aligned} h_{t} = W h_{t - 1} + W^{(h x)} x_{t} \\ {\hat{y}}_{t} = W^{(s)} f (h_{t}) \end{aligned}

总的误差是之前每个时刻的误差之和

\frac{\partial E}{\partial W} = \sum_{t = 1}^{T} \frac{\partial E_{t}}{\partial W}

每一时刻的误差又是之前每个时刻的误差之和，应用链式法则

\frac{\partial E_{t}}{\partial W} = \frac{\partial E_{t}}{\partial y_{t}} \frac{\partial y_{t}}{\partial h_{t}} \sum_{k = 1}^{t} \frac{\partial h_{t}}{\partial h_{k}} \frac{\partial h_{k}}{\partial W}

\frac{\partial E_{t}}{\partial W} = \sum_{k = 1}^{t} \frac{\partial E_{t}}{\partial y_{t}} \frac{\partial y_{t}}{\partial h_{t}} \frac{\partial h_{t}}{\partial h_{k}} \frac{\partial h_{k}}{\partial W}

\frac{\partial E_{t}}{\partial W} = \sum_{k = 1}^{t} \frac{\partial E_{k}}{\partial y_{k}} \frac{\partial y_{k}}{\partial h_{k}} \frac{\partial h_{k}}{\partial h_{k - 1}} \frac{\partial h_{k - 1}}{\partial W}

而 $\frac{\partial h_{t}}{\partial h_{k}}$ 会变得非常大或者非常小！！

\frac{\partial h_{t}}{\partial h_{k}} = \prod_{j = k + 1}^{t} \frac{\partial h_{j}}{\partial h_{j - 1}} = \prod_{j = k + 1}^{t} W^{T} \times d i a g [f^{'} (j_{j - 1})]

而导数矩阵雅克比矩阵

\frac{\partial h_{j}}{\partial h_{j - 1}} = [\frac{\partial h_{j}}{\partial h_{j - 1, 1}}, \dots, \frac{\partial h_{j}}{\partial h_{j - 1, d_{h}}}] = [\begin{matrix} \frac{\partial h_{j, 1}}{\partial h_{j - 1, 1}} & \dots & \frac{\partial h_{j, 1}}{\partial h_{j - 1, d_{h}}} \\ ⋮ & ⋱ & ⋮ \\ \frac{\partial h_{j, d_{h}}}{\partial h_{j - 1, 1}} & \dots & \frac{\partial h_{j, d_{h}}}{\partial h_{j - 1, d_{h}}} \end{matrix}]

合并起来，得到最终的

\frac{\partial E}{\partial W} = \sum_{t = 1}^{T} \sum_{k = 1}^{t} \frac{\partial E_{t}}{\partial y_{t}} \frac{\partial y_{t}}{\partial h_{t}} (\prod_{j = k + 1}^{t} \frac{\partial h_{j}}{\partial h_{j - 1}}) \frac{\partial h_{k}}{\partial W}

两个不等式

∥ \frac{\partial h_{j}}{\partial h_{j - 1}} ∥ \leq ∥ W^{T} ∥ \cdot ∥ d i a g [f^{'} (h_{j - 1})] ∥ \leq β_{W} β_{h}

所以有，会变得非常大或者非常小。会产生梯度消失或者梯度爆炸问题。

∥ \frac{\partial h_{t}}{\partial h_{k}} ∥ = ∥ \prod_{j = k + 1}^{t} \frac{\partial h_{j}}{\partial h_{j - 1}} ∥ \leq (β_{W} β_{h})^{t - k}

梯度 是过去对未来影响力的一个度量方法。如果梯度消失了不确定 $t$ 和 $k$ 之间是否有关系，或者是因为参数错误。

解决梯度爆炸

原始梯度

\hat{g} = \frac{\partial E}{\partial W}

如果 $\hat{g} > 阈值$ ，则更新

\hat{g} = \frac{threshold}{∥ \hat{g} ∥} \hat{g}

GRU解决梯度消失

LSTM可以记住一些记忆，捕获长依赖问题
也可以让ERROR根据输入，依照不同强度流动

RNN的前向和反向传播，都会经过每一个节点

GRU可以自动地去创建一些短连接，也可以自动地删除一些不必要的连接。（门的功能）

RNN会读取之前所有信息，并且更新所有信息。

GRU

选择可读部分，读取
选择可写部分，更新

循环神经网络

LSTM经典描述 ​

经典RNN模型 ​

LSTM总览与核心结构 ​

LSTM细节解剖 ​

LSTM总结 ​

图文简介描述LSTM ​

总体架构 ​

数据流动 ​

遗忘门 ​

新旧信息合并 ​

输出特别的值 ​

LSTM变体 ​

观察口连接 ​

组队遗忘 ​

GRU ​

RNN梯度问题 ​

RNN梯度推导 ​

解决梯度爆炸 ​

GRU解决梯度消失 ​