cs224n笔记，word2vec总体介绍，包括CBOW和Skip-gram，负采样训练

Word2vec

简介

把词汇变成词向量。

	类别1	类别2
算法	CBOW，上下文预测中心词汇	Skip-gram，中心词汇预测上下文
训练方法	负采样	哈夫曼树

语言模型

两种句子：

正常的句子：The cat jumped over the puddle。概率高，有意义。
没意义的句子：stock boil fish is toy 。概率低，没意义。

二元模型

一个句子，有 $n$ 个单词。每个词出现的概率由上一个词语来决定。则整体句子的概率如下表示：

P (w_{1}, w_{2}, \dots, w_{n}) = \prod_{i = 2}^{n} P (w_{i} ∣ w_{i - 1})

缺点

只考虑单词相邻传递概率，而忽略句子整体的可能性。
context size=1，只学了相邻单词对的概率
会计算整个大数据集的全局信息

CBOW

给上下文The cat _ over the puddle ，预测jump 。对于每个单词，学习两个向量：

$v$ ：输入向量 ，（上下文单词）
$u$ ： 输出向量 ，（中心单词）

符号说明

$V$ ：词汇表，后面用 $V$ 代替词汇表单词个数
$w_{i}$ ：词汇表中第 $i$ 个单词
$d$ ：向量的维数
$V_{d \times | V |}$ ：输入矩阵，也可以用 $W$ 来表达
$v_{i}$ ： $V$ 的第 $i$ 列， $w_{i}$ 的输入向量表达
$U_{| V | \times d}$ ：输出矩阵，可以用 $W^{'}$ 来表达
$u_{i}$ ： $U$ 的第i行， $w_{i}$ 的输出向量表达

输入与输出

$x^{(c)}$ ，输入 $2 m$ 个上下文单词，上下文词汇的one-hot向量
$y_{c}$ ：真实标签
${\hat{y}}^{(c)}$ ，输出一个中心单词，中心词汇的one-hot向量

步骤

1 上下文单词onehot向量

one-hot向量的表达： $(x^{(c - m)}, \dots, x^{(c - 1)}, x^{(c + 1)}, x^{(c + m)} \in R^{V})$

2 上下文单词向量

$(v_{c - m}, v_{c - m + 1}, \dots . v_{c + m} \in R^{d})$ ，其中， $v_{c - m} = V x^{(c - m)}$ ，即输入矩阵乘以one-hot向量就找到所在的列

3 平均上下文词向量

$\hat{v} = \frac{v_{c - m} + \dots + v_{c + m}}{2 m} \in R^{d}$

4 输出单词与上下文计算得分向量

$z = U \hat{v} \in R^{V}$ 。点积，单词越相似，得分越高

5 得分向量转为概率

$\hat y = \mathrm{softmax}(z) \in \mathbb R^V $

6 真实预测概率对比

预测的概率向量 $\hat{y}$ 与唯一真实中心单词one-hot向量 $y$ ，进行交叉熵比较算出loss。

目标函数

使用交叉熵计算loss，损失函数如下：

H (\hat{y}, y) = - \sum_{j = 1}^{| V |} y_{j} \log ({\hat{y}}_{j})

由于中心单词 $y$ 是one-hot编码，只有正确位置才为1，其余均为0，所以只需计算中心单词对应的位置概率的loss即可：

H (\hat{y}, y) = - y_{c} \log ({\hat{y}}_{c}) = - \log ({\hat{y}}_{c})

交叉熵很好是因为

$- 1 \cdot \log (1) = 0$ ，预测得好
$- 1 \cdot \log (0.01) = 4.605 $ ，预测得不好

最终损失函数：

\begin{aligned} m i n i m i z e J & = - \log P (w_{c} ∣ w_{c - m}, \dots, w_{c - 1}, w_{c + 1}, \dots, w_{c + m}) \\ = - \log P (u_{c} ∣ \hat{v}) \\ = - \log \frac{\exp (u_{c}^{T} \hat{v})}{\sum_{j = 1}^{| V |} \exp (u_{j}^{T} \hat{v})} \\ = - u_{c}^{T} \hat{v} + \log \sum_{j = 1}^{| V |} \exp (u_{j}^{T} \hat{v}) \end{aligned}

再使用SGD方法去更新相关的两种向量 $u_{c}, v_{j}$ 。

Skip-gram

给中心单词 jump，预测上下文The cat _ over the puddle 。

输入中心单词 $x$ ，输出上下文单词 $y$ 。与CBOW正好输入输出相反，但同样有两个矩阵 $U, V$ 。符号说明同CBOW。

步骤

1 中心单词onehot向量

$x \in R^{| V |}$

2 中心单词词向量

$v_{c} = V x \in R^{d}$

3 中心词与其他词的得分向量

$z = U v_{c} \in R^{| V |}$

4 得分向量转为概率

概率 $\hat{y} = s o f t m a x (z)$ ， ${\hat{y}}_{c - m}, \dots, {\hat{y}}_{c + m}$ 是目标上下文单词是中心单词的上下文的预测概率。

5 预测真实概率对比

预测概率 $\hat{y}$ 与 $2 m$ 个真实上下文onehot向量 $y_{c - m}, \dots, y_{c + m}$ 进行交叉熵对比，算出loss

目标函数

与CBOW不同的是，Skip-gram做了一个朴素贝叶斯条件假设，所有的输出上下文单词都是独立的。

\begin{aligned} m i n i m i z e J & = - \log P (w_{c - m}, \dots, w_{c - 1}, w_{c + 1}, \dots, w_{c + m} ∣ w_{c}) \\ = - \log \prod_{j = 0, j \neq m}^{2 m} P (w_{c - m + j} ∣ w_{c}) \\ = - \log \prod_{j = 0, j \neq m}^{2 m} \frac{\exp (u_{c - m + j}^{T} \cdot v_{c})}{\sum_{k = 1}^{| V |} \exp (u_{k}^{T} \cdot v_{c})} \\ = - \sum_{j = 0, j \neq m}^{2 m} (\log \exp (u_{c - m + j}^{T} \cdot v_{c}) - \log \sum_{k = 1}^{| V |} \exp (u_{k}^{T} \cdot v_{c})) \\ = - \sum_{j = 0, j \neq m}^{2 m} u_{c - m + j}^{T} v_{c} + 2 m \cdot \log \sum_{k = 1}^{| V |} \exp (u_{k}^{T} \cdot v_{c}) \end{aligned}

一样，使用SGD去优化U和V。

损失函数实际上是 $2 m$ 个交叉熵求和，求出的向量 $\hat{y}$ 与 $2 m$ 个onehot向量 $y_{c - m + j}$ 计算交叉熵：

\begin{aligned} J & = - \sum_{j = 0, j \neq m}^{2 m} \log P (u_{c - m + j} ∣ v_{c}) \\ = \sum_{j = 0, j \neq m}^{2 m} H (\hat{y}, y_{c - m + j}) \end{aligned}

负采样训练

每次计算都会算整个 $| V |$ 词表，太耗时了。可以从噪声分布 $P_{n} (w)$ 中进行负采样，来代替整个词表。当然单词采样概率与其词频相关。只需关心：目标函数、梯度、更新规则。

标签函数

对于一对中心词和上下文单词 $(w, c)$ ，设标签如下：

$P (l = 1 ∣ w, c)$ ， $(w, c)$ 来自于真实语料
$P (l = 0 ∣ w, c)$ ， $(w, c)$ 来自于负样本，即不在语料中

用sigmoid表示标签函数：

\begin{aligned} P (l = 1 ∣ w, c; θ) = σ (u_{w}^{T} v_{c}) = \frac{1}{1 + e^{- u_{w}^{T} v_{c}}} \\ P (l = 0 ∣ w, c; θ) = 1 - σ (u_{w}^{T} v_{c}) = \frac{1}{1 + e^{u_{w}^{T} v_{c}}} \end{aligned}

目标函数

选取合适的 $θ = U, V$ ，去增大正样本的概率，减小负样本的概率。设 $D$ 为正样本集合， $\bar{D}$ 为负样本集合。

\begin{aligned} θ & = \underset{θ}{a r g m a x} \prod_{(w, c) \in D} P (l = 1 ∣ w, c, θ) \prod_{(w, c) \in \bar{D}} P (l = 0 ∣ w, c, θ) \\ = \underset{θ}{a r g m a x} \prod_{(w, c) \in D} P (l = 1 ∣ w, c, θ) \prod_{(w, c) \in \bar{D}} (1 - P (l = 1 ∣ w, c, θ)) \\ = \underset{θ}{a r g m a x} \sum_{(w, c) \in D} \log P (l = 1 ∣ w, c, θ) + \sum_{(w, c) \in \bar{D}} \log (1 - P (l = 1 ∣ w, c, θ)) \\ = \underset{θ}{a r g m a x} \sum_{(w, c) \in D} \log \frac{1}{1 + \exp (- u_{w}^{T} v_{c})} + \sum_{(w, c) \in \bar{D}} \log \frac{1}{1 + \exp (u_{w}^{T} v_{c})} \\ = \underset{θ}{a r g m a x} \sum_{(w, c) \in D} \log σ (u_{w}^{T} v_{c}) + \sum_{(w, c) \in \bar{D}} \log σ (- u_{w}^{T} v_{c}) \end{aligned}

最大化概率也就是最小化负对数似然

J = - \sum_{(w, c) \in D} \log σ (u_{w}^{T} v_{c}) - \sum_{(w, c) \in \bar{D}} \log σ (- u_{w}^{T} v_{c})

负采样集合选择

为中心单词 $w_{c}$ 从 $P_{n} (w)$ 采样 $K$ 个假的上下文单词。表示为 ${{\bar{u}}_{k} ∣ k = 1 \dots K}$

CBOW

给上下文向量 $\hat{v} = \frac{v_{c - m} + \dots + v_{c + m}}{2 m}$ 和真实中心词 $u_{c}$

原始loss

J = - u_{c}^{T} \hat{v} + \log \sum_{j = 1}^{| V |} \exp (u_{j}^{T} \hat{v})

负采样loss

J = - \log σ (u_{c}^{T} \cdot \hat{v}) - \sum_{k = 1}^{K} \log σ (- {\bar{u}}_{k}^{T} \cdot \hat{v})

Skip-gram

给中心单词 $v_{c}$ ，和 $2 m$ 个真实上下文单词 $u_{c - m + j}$

原始loss

J = - \sum_{j = 0, j \neq m}^{2 m} u_{c - m + j}^{T} v_{c} + 2 m \cdot \log \sum_{k = 1}^{| V |} \exp (u_{k}^{T} \cdot v_{c})

负采样loss

J = - \sum_{j = 0, j \neq m}^{2 m} \log σ (u_{c - m + j}^{T} \cdot v_{c}) - \sum_{k = 1}^{K} \log σ (- {\bar{u}}_{k}^{T} \cdot v_{c})

Word2vec之总体介绍

Word2vec ​

简介 ​

语言模型 ​

CBOW ​

符号说明 ​

步骤 ​

目标函数 ​

Skip-gram ​

步骤 ​

目标函数 ​

负采样训练 ​

标签函数 ​

目标函数 ​

负采样集合选择 ​

CBOW ​

Skip-gram ​

Word2vec

简介

语言模型

CBOW

符号说明

步骤

目标函数

Skip-gram

步骤

目标函数

负采样训练

标签函数

目标函数

负采样集合选择

CBOW

Skip-gram