最初的Match-LSTM阅读理解模型。

论文地址：Machine Comprehension Using Match-LSTM and Answer Pointer

背景

阅读理解任务

后面会详细补充。

传统解决问答的方法：语言分析、特征工程等，具体包括句法分析、命名实体识别、问题分类、语义分析等。

Squad数据集

答案是文章中出现的任意长度片段
Wiki文章为主
众包人工标注产生
每个问题3人标注，降低了人工标注误差
数量较大：500多篇文章，2万多个段落，10万个问题
鼓励用自己的语言提问

Match-LSTM

1. 文本蕴含任务

一个前提集合P，一个假设H。去预测P里是否能蕴含出H。

2. Match-LSTM

有K个前提 ${P_{1}, \dots, P_{K}}$ ，1个假设 $H$ 。假设的长度为m。遍历假设的每一个词汇 $h_{i}$

在 $h_{i}$ 处，利用注意力机制，综合K个前提，得到一个向量 $p_{i}$
聚合匹配 $[h_{i}, p_{i}]$ 一起，给到LSTM

其实类似于Attention-Based NMT的解码过程。

Pointer-Net

从一个输入序列中，选择一个位置作为输出。

序列模型：选择多个位置，就组成一个序列
边界模型：选择开始和结束位置，中间的片段是答案

模型

段落 $P$ 有m个单词，问题 $Q$ 有n个单词。

LSTM编码层

单向LSTM编码

H^{p} = L S T M (P), H^{q} = L S T M (Q)

取每一时刻的隐状态，得到对文章和问题的编码。 $H^{p} \in R^{m \times h}, H^{q} \in R^{n \times h}$ 。 $h$ 是编码的维度。

Match-LSTM层

这一层实际上是一个LSTM，输入依次是P中的各个单词 $p_{i}$ 。每一时刻，利用注意力机制计算相对应的Q的编码。

问题--前提，段落--假设，看问题蕴含P的哪些部分。

先计算注意力权值

\vec{G_{i}} = \tanh (W^{q} H^{q} + (W^{p} h_{i}^{p} + W^{r} \vec{h_{i - 1}^{r}} + b^{p}) \otimes e_{Q})

\vec{α_{i}} = s o f t m a x (w^{T} \vec{G_{i}} + b \otimes e_{Q})

利用注意力机制，计算所有Q基于当前 $p_{i}$ 的注意力，把注意力和 $h_{i}^{p}$ 拼接起来

\vec{z_{i}} = [h_{i}^{p}, \underset{a t t e n t i o n}{\underset{⏟}{H^{q} \vec{α_{i}}}}]

把match后的结果，输入到LSTM，

\vec{h_{i}^{r}} = L S T M (\vec{z_{i}}, \vec{h_{i - 1}^{r}})

定义从右向左，得到 $\overset{\leftarrow}{h_{i}^{r}}$ 。最终，拼接两个方向的向量，得到

H^{r} = [\vec{H^{r}}, \overset{\leftarrow}{H^{r}}] \in R^{m \times 2 h}

Answer-Pointer层

输入Match-LSTM层对Passage的编码结果 $H^{r}$ ，输出一个序列。

序列模型

不断生成一个序列 $a = (a_{1}, a_{2}, \dots)$ ，表示P中的位置。

在P的末尾设置一个停止标记，如果选择它，则停止迭代。新的 ${\bar{H}}^{r} \in R^{(m + 1) \times 2 h}$

1、计算注意力权值 $β_{k}$ ， $β_{k, j}$ 表示，选 $p_{j}$ 作为 $a_{k}$ 的概率

F_{k} = \tanh (V {\bar{H}}^{r} + (W^{a} h_{k - 1}^{a} + b^{a}) \otimes e_{(m + 1)})

β_{k} = s o f t m a x (v^{T} F_{k} + c \otimes e_{(m + 1)})

2、使用注意力机制得到当前时刻需要的 $H^{r}$ 的信息，结合上一时刻的隐状态，输入到LSTM中

h_{k}^{a} = \vec{L S T M} (\underset{a t t e n t i o n}{\underset{⏟}{{\bar{H}}^{r} β_{k}^{T}}}, h_{k - 1}^{r})

答案的概率计算如下：

p (a ∣ H^{r}) = \prod_{k} p (a_{k} ∣ a_{1}, \dots, a_{k - 1}, H^{r})

p (a_{k} = j ∣ a_{1}, \dots, a_{k - 1}, H^{r}) = β_{k, j}

目标函数：

- \sum_{n = 1}^{N} \log p (a_{n} ∣ P_{n}, Q_{n})

边界模型

不用预测完整的序列，只预测开始和结束位置就可以了。

p (a ∣ H^{r}) = p (a_{s} ∣ H^{r}) \cdot p (a_{e} ∣ a_{s}, H^{r})

Match-LSTM and Answer Pointer

背景 ​

阅读理解任务 ​

Squad数据集 ​

Match-LSTM ​

Pointer-Net ​

模型 ​

LSTM编码层 ​

Match-LSTM层 ​

Answer-Pointer层 ​

背景