用图文简单介绍基于RNN的Encoder-Decoder中注意力机制

Encoder-Decoder

基本介绍

举个翻译的例子，原始句子 $X = (x_{1}, x_{2}, \dots, x_{m})$ ，翻译成目标句子 $Y = (y_{1}, y_{2}, \dots, y_{n})$ 。

现在采用Encoder-Decoder架构模型，如下图

Encoder会利用整个原始句子生成一个语义向量，Decoder再利用这个向量翻译成其它语言的句子。这样可以把握整个句子的意思、句法结构、性别信息等等。具体框架可以参考Encoder-Decoder框架。

Encoder对 $X$ 进行非线性变换得到中间语义向量c ：

c = G (x_{1}, x_{2}, \dots, x_{n})

Decoder根据语义 $c$ 和生成的历史单词 $(y_{1}, y_{2}, \dots, y_{i - 1})$ 来生成第 $i$ 个单词 $y_{i}$ ：

y_{i} = f (c, y_{1}, y_{2}, \dots, y_{i - 1})

Encoder-Decoder是个创新大杀器，是个通用的计算框架。Encoder和Decoder具体使用什么模型，都可以自己选择。通常有CNN，RNN，BiRNN，GRU，LSTM， Deep LSTM。上面的内容任意组合，只要得到的效果好，就是一个创新，就可以毕业了。（当然别人没有提出过）

缺点

在生成目标句子 $Y$ 的单词时，所有的单词 $y_{i}$ 使用的语义编码 $c$ 都是一样的。而语义编码 $c$ 是由句子 $X$ 的每个单词经过Encoder编码产生，也就是说每个 $x_{i}$ 对所有 $y_{j}$ 的影响力都是相同的，没有任何区别的。所以上面的是注意力不集中的分心模型。

句子较短时问题不大，但是较长时，所有语义完全通过一个中间语义向量来表示，单词自身的信息已经消失，会丢失更多的细节信息。

例子

比如输入 $X$ 是Tom chase Jerry，模型翻译出 汤姆追逐杰瑞。在翻译“杰瑞”的时候，“Jerry”对“杰瑞”的贡献更重要。但是显然普通的Encoder-Decoder模型中，三个单词对于翻译“Jerry-杰瑞”的贡献是一样的。

解决方案应该是，每个单词对于翻译“杰瑞”的贡献应该不一样，如翻译“杰瑞”时：

(T o m, 0.3), (C h a s e, 0.2), (J e r r y, 0.5)

Attention Model

基本架构

Attention Model的架构如下：

如图所示，生成每个单词 $y_{i}$ 时，都有各自的语义向量 $C_{i}$ ，不再是统一的 $C$ 。

y_{i} = f (C_{i}, y_{1}, \dots, y_{i - 1})

例如，前3个单词的生成：

\begin{aligned} y_{1} = f (C_{1}) \\ y_{2} = f (C_{2}, y_{1}) \\ y_{3} = f (C_{3}, y_{1}, y_{2}) \end{aligned}

语义向量的计算

注意力分配概率 $a_{i j}$ 表示 $y_{i}$ 收到 $x_{j}$ 的注意力概率。

例如 $X = (T o m, C h a s e, J e r r y)$ ， $Y = (汤姆, 追逐, 杰瑞)$ 。 $a_{12} = 0.2$ 表示汤姆 收到来自Chase的注意力概率是0.2。

有下面的注意力分配矩阵：

A = [a_{i j}] = [\begin{matrix} 0.6 & 0.2 & 0.2 \\ 0.2 & 0.7 & 0.1 \\ 0.3 & 0.1 & 0.5 \end{matrix}]

第 $i$ 行表示** $y_{i}$ 收到的所有来自输入单词的注意力分配概率**。 $y_{i}$ 的语义向量 $C_{i}$ 由这些注意力分配概率和Encoder对单词 $x_{j}$ 的转换函数相乘，计算而成，例如：

\begin{aligned} C_{1} = C_{汤 姆} = g (0.6 \cdot h (T o m), 0.2 \cdot h (C h a s e), 0.2 \cdot h (J e r r y)) \\ C_{2} = C_{追 逐} = g (0.2 \cdot h (T o m), 0.7 \cdot h (C h a s e), 0.1 \cdot h (J e r r y)) \\ C_{3} = C_{汤 姆} = g (0.3 \cdot h (T o m), 0.2 \cdot h (C h a s e), 0.5 \cdot h (J e r r y)) \end{aligned}

$h (x_{j})$ 就表示Encoder对输入英文单词的某种变换函数。比如Encoder使用RNN的话， $h (x_{j})$ 往往都是某个时刻输入 $x_{j}$ 后隐层节点的状态值。

g函数 表示注意力分配后的整个句子的语义转换信息，一般都是加权求和，则有语义向量计算公式：

C_{i} = \sum_{j = 1}^{T_{x}} a_{i j} \cdot h_{j}, h_{j} = h (x_{j})

其中 $T_{x}$ 代表输入句子的长度。形象来看计算过程如下图：

注意力分配概率计算

语义向量需要注意力分配概率和Encoder输入单词变换函数来共同计算得到。

但是比如汤姆收到的分配概率 $a_{1} = (0.6, 0.2, 0.2)$ 是怎么计算得到的呢？

这里采用RNN作为Encoder和Decoder来说明。

注意力分配概率如下图计算

对于 $a_{i j}$ 其实是通过一个对齐函数F来进行计算的，两个参数：输入节点 $j$ ，和输出节点 $i$ ，当然一般是取隐层状态。

a_{i} = F (i, j), j \in [1, T_{x}], h (j) E n c o d e r, H (i) D e c o d e r

$F (i, j)$ 代表 $y_{i}$ 和 $x_{j}$ 的对齐可能性。一般F输出后，再经过softmax就得到了注意力分配概率。

AM模型的意义

一般地，会把AM模型看成单词对齐模型，输入句子单词和这个目标生句子成单词的对齐概率。

其实，理解为影响力模型也是合理的。就是在生成目标单词的时候，输入句子中的每个单词，对于生成当前目标单词有多大的影响程度。

AM模型有很多的应用，思想大都如此。

文本摘要例子

比如文本摘要的例子，输入一个长句，提取出重要的信息。

输入"russian defense minister ivanov called sunday for the creation of a joint front for combating global terrorism"。

输出"russia calls for joint front against terrorism"。

下图代表着输入单词对输出单词的影响力，颜色越深，影响力越大，注意力分配概率也越大。

PyTorch翻译AM实现

思想

参考这篇论文。

生成目标单词 $y_{i}$ 的计算概率是

p (y_{i} ∣ (y_{1}, \dots, y_{i - 1}), x) = g (y_{i - 1}, s_{i}, c_{i})

符号意义说明

$y_{i}$ 当前应该生成的目标单词， $y_{i - 1}$ 上一个节点的输出单词
$s_{i}$ 当前节点的隐藏状态
$c_{i}$ 生成当前单词应该有的语义向量
$g$ 全连接层的函数

隐层状态 $s_{i}$

求当前Decoder隐层状态 $s_{i}$ ：由上一层的隐状态 $s_{i - 1}$ ，输出单词 $y_{i - 1}$ ，语义向量 $c_{i}$

s_{i} = f (s_{i - 1}, y_{i - 1}, c_{i})

语义向量 $c_{i}$

语义向量：分配权值 $a_{i j}$ ，Encoder的输出

c_{i} = \sum_{j = 1}^{T_{x}} a_{i j} \cdot h_{j}, h_{j} = h (x_{j})

分配概率 $a_{i j}$

注意力分配概率 $a_{i j} ，$ $y_{i}$ 收到 $x_{j}$ 的注意力：分配能量 $e_{i j}$

a_{i j} = \frac{\exp (e_{i j})}{\sum_{k = 1}^{T_{x}} \exp (e_{i k})}

分配能量 $e_{i j}$

$x_{j}$ 注意 $y_{i}$ 的能量，由encoder的隐状态 $h_{j}$ 和 decoder的上一层的隐状态 $s_{i - 1}$ 计算而成。a函数就是一个线性层。也就是上面的F函数。

e_{i j} = a (s_{i - 1}, h_{j})

实现

Decoder由4层组成

embedding : word2vec
attention layer: 为每个encoder的output计算Attention
RNN layer:
output layer:

Decoder输入 $s_{i - 1}$ , $y_{i - 1}$ 和encoder的所有outputs $h_{*}$

Embedding Layer

输入 $y_{i - 1}$ ，对其进行编码

python

# y(i-1)
embedded = embedding(last_rnn_output)

Attention Layer

输入 $s_{i - 1}, h_{j}$ ，输出分配能量 $e_{i j}$ ，计算出 $a_{i j}$

python

attn_weights[j] = attn_layer(last_hidden, encoder_outputs[j])
attn_weights = normalize(attn_weights)

计算语义向量

求语义向量 $c_{i}$ ，一般是加权求和

python

context = sum(attn_weights * encoder_outputs)

RNN Layer

输入 $s_{i - 1}, y_{i - 1}, c_{i}$ ，内部隐层状态，输出 $s_{i}$

python

rnn_input = concat(embeded, context)
rnn_output, rnn_hidden = rnn(rnn_input, last_hidden)

输出层

输入 $y_{i - 1}, s_{i}, c_{i}$ ，输出 $y_{i}$

python

output = out(embedded, rnn_output, context)

图文介绍RNN注意力机制

Encoder-Decoder ​

基本介绍 ​

缺点 ​

Attention Model ​

基本架构 ​

语义向量的计算 ​

注意力分配概率计算 ​

AM模型的意义 ​

文本摘要例子 ​

PyTorch翻译AM实现 ​

思想 ​

实现 ​

Encoder-Decoder

基本介绍

缺点

Attention Model

基本架构

语义向量的计算

注意力分配概率计算

AM模型的意义

文本摘要例子

PyTorch翻译AM实现

思想

实现