微软亚研院和北大的阅读理解模型R-Net。

Gated Attention-based RNN 来获得question-aware passage representation，即编码P
Self-matching Attention来修正编码P，即P与自己做match，有效从全文中编码信息
Pointer Network预测开始和结束位置

论文地址：

Introduction

经典模型

1. Match-LSTM

Match-LSTM and Answer Pointer笔记

2. Dynamic Coatteion Network

DCN笔记。Coattention同时处理P和Q，动态迭代预测答案的位置。

3. Bi-Directional Attention Flow Network

本文模型概要

1. BiRNN 分别编码P和Q

分别编码Question和Passage

2. gated matching layer 编码Q-Aware的Passage

Gated Attention-based RNN。在Match-LSTM上添加了门机制。

段落有多个部分，根据与Q的相关程度，分配重要性权值
忽略不重要的，强调重要的部分

3. self-matching layer

再次从整个Passage中提取信息。它的缺点：

RNN只能存储少部分上下文内容
一个候选答案不知道其他部分的线索

解决方法：对P做self-match。使用Gated Attention-based RNN对P和P自己做match。

4. pointer-network

模型

BiRNN，GARNN（P+Q），GARNN-Selfmatch（P+P），Pointer Network

BiRNN编码Q和P

$Q = {w_{t}^{Q}}_{t = 1}^{m}$ ， $P = {w_{t}^{P}}_{t = 1}^{n}$ 。 P是n个单词，Q是m个单词。

词向量和字符向量

词向量： ${e_{t}^{Q}}_{t = 1}^{m}$ 、 ${e_{t}^{P}}_{t = 1}^{n}$

字符向量： ${c_{t}^{Q}}_{t = 1}^{m}$ 、 ${c_{t}^{P}}_{t = 1}^{n}$

字符向量，使用RNN，用每个单词的最后时刻的隐状态，作为字符向量。有助于处理OOV词汇。

编码Question和Passage

u_{t}^{Q} = B i R N N (u_{t - 1}^{Q}, [e_{t}^{Q}, c_{t}^{Q}])

u_{t}^{P} = B i R N N (u_{t - 1}^{P}, [e_{t}^{P}, c_{t}^{P}])

Gated Attention-based RNN

要基于U（ $U^{Q}$ ）去编码P（ $U^{P}$ ），得到Question-Aware的Passage编码， $V^{P}$ 。

1. Attention RNN

$p_{t}$ 与 $q_{j}$ 两个单词的相关性函数（能量函数）

s_{j}^{t} = v^{T} \tanh (W_{u}^{Q} u_{j}^{Q} + W_{u}^{P} u_{t}^{P} + W_{v}^{P} v_{t - 1}^{P}), j = 1, \dots, m

$p_{t}$ 与所有Q单词的注意力权值 $α^{t}$ doc 2 query attention

α_{j}^{t} = s o f t m a x (s_{j}^{t})

$p_{t}$ 基于 $α^{t}$ 对 $Q$ 的信息汇总（注意力）attention pooling vector of the whole question

c_{t} = \sum_{i = 1}^{m} α_{i}^{t} u_{i}^{Q}

实际上： $c_{t} = a t t n (U^{Q}, [u_{t}^{P}, v_{t - 1}^{P}]) $ 。

注意力$\mathbf c_t $和上一时刻隐状态 $v_{t - 1}^{P}$ ，输入RNN，计算当前的信息

v_{t}^{P} = R N N (v_{t - 1}^{P}, c_{t})

每个 $v_{t}^{P}$ 动态地合并了来自整个Q的匹配信息。

2. Match RNN

Match-LSTM。在输入RNN计算时，把当前 $u_{t}^{P}$ 也输入进去，带上Passage的信息。输入是** $i n p u t = [u_{t}^{P}, c_{t}]$ **。

v_{t}^{P} = R N N (v_{t - 1}^{P}, [u_{t}^{P}, c_{t}])

3. Gated Attention-based RNN

用门机制去控制每个 $p_{t}$ 的重要程度。

g_{t} = s i g m o i d (W_{g} \cdot [u_{t}^{P}, c_{t}])

[u_{t}^{P}, c_{t}]^{*} = g_{t} ⊙ [u_{t}^{P}, c_{t}]

v_{t}^{P} = R N N (v_{t - 1}^{P}, [u_{t}^{P}, c_{t}]^{*})

GARNN的门机制

与GRU和LSTM不同
门机制是基于当前 $p_{t}$ 和它的对应的Q的注意力向量 $c_{t}$ （包含当前 $p_{t}$ 和Q的关系）
模拟了阅读理解中，只有 $P$ 的一部分才与问题相关的特点

最终得到了question-aware passage representation ： ${v_{t}^{P}}_{t = 1}^{n}$ 。它的缺点如下：

对Passage的上下文感知太少
候选答案对它窗口之外的线索未知
Question和Passage在词法、句法上有区别

Self-Matching Attention

为了充分利用Passage的上下文信息。 ${v_{t}^{P}}_{t = 1}^{n}$

对P做self-match。使用Gated Attention-based RNN对P和P自己做match。

注意力计算

s_{j}^{t} = v^{T} \tanh (W_{v}^{P} v_{j}^{P} + W_{v}^{\bar{P}} v_{t}^{P}), j = 1, \dots, n

α_{j}^{t} = s o f t m a x (s_{j}^{t})

c_{t} = \sum_{i = 1}^{n} α_{i}^{t} v_{i}^{P}

RNN计算

h_{t}^{P} = B i R N N (h_{t - 1}^{P}, [v_{t}^{P}, c_{t}]^{*})

Self-Matching根据当前p单词、Q，从整个Passage中提取信息。最终得到Passage的表达 $H^{P}$ 。

Output Layer

其实就是个Pointer Network的边界模型，预测起始位置 $p^{1}$ 和结束位置 $p^{2}$ 。用RNN计算两次。

1. 基于Q计算初始隐状态

初始hidden state是Question的attention-pooling vector

h_{t - 1}^{Q} = r^{Q}

基于Q的编码和一组参数 $V_{r}^{Q}$ ，利用注意力机制计算 $r^{Q}$

r^{Q} = a t t n (U^{Q}, V_{r}^{Q})

s_{j} = v^{T} \tanh (W_{u}^{Q} u_{j}^{Q} + W_{v}^{Q} V_{r}^{Q}), j = 1, \dots, m

α_{i} = s o f t m a x (s_{i}) = \frac{\exp (s_{i})}{\sum_{j = 1}^{m} \exp (s_{j})}

r^{Q} = \sum_{i = 1}^{m} α_{i} u_{i}^{Q}

2. RNN计算开始位置和结束位置

计算t时刻的attention-pooling passage （注意力 $c_{t}$ ）

s_{j}^{t} = v^{T} \tanh (W_{h}^{P} h_{j}^{P} + W_{h}^{a} h_{t - 1}^{a})

α_{i}^{t} = s o f t m a x (s_{j}^{t})

c_{t} = \sum_{i = 1}^{n} α_{i}^{t} h_{i}^{P}

RNN前向计算

h_{t}^{a} = R N N (h_{t - 1}^{a}, c_{t})

基于注意力权值去选择位置

p^{t} = \arg max_{i} (a_{i}^{t})

实验

实现细节

数据集

训练集80%，验证集10%，测试10%

分词

斯坦福的CoreNLP中的tokenizer

词向量

预训练好的Glove Vectors。训练中保持不变。

字符向量

单层的双向GRU，末尾隐状态作为该单词的字符向量

BiRNN编码Question和Passage

3层的双向GRU

Hidden Size大小

所有都是75

Dropout

每层之间的DropOut比例是0.2

优化器

AdaDelta。初始学习率为1，衰减率 $β = 0.95$ ， $ϵ = 1 e^{- 6}$

R-Net (Gated Self-Matching Networks)

Introduction

经典模型

本文模型概要

模型

BiRNN编码Q和P

Gated Attention-based RNN

Self-Matching Attention

Output Layer

实验

实现细节

效果

对比分析

R-Net (Gated Self-Matching Networks)

Introduction ​

经典模型 ​

本文模型概要 ​

模型 ​

BiRNN编码Q和P ​

Gated Attention-based RNN ​

Self-Matching Attention ​

Output Layer ​

实验 ​

实现细节 ​

效果 ​

对比分析 ​

Introduction

经典模型

本文模型概要

模型

BiRNN编码Q和P

Gated Attention-based RNN

Self-Matching Attention

Output Layer

实验

实现细节

效果

对比分析