cs224n word2vec 简介和公式推导

Word meaning

词意

词的意思就是idea，如下：

词汇本身表达的意义
人通过词汇传达的想法
在写作、艺术中表达的意思
signifier - signified(idea or thing) - denotation

传统离散表达

传统使用分类学去建立一个WordNet，其中包含许多上位词is-a和同义词集等。如下：

上义词	同义词
entity, physical_entity,object, organism, animal	full, good; estimable, good, honorable, respectable

离散表达的问题：

丢失了细微差别，比如同义词：adept, expert, good, practiced, proficient, skillful
不能处理新词汇
分类太主观
需要人力去构建和修改
很难去计算词汇相似度

每个单词使用one-hot编码，比如hotel= $[0, 1, 0, 0, 0]$ ，motel= $[0, 0, 1, 0, 0]$ 。当我搜索settle hotel的时候也应该去匹配包含settle motel的文章。但是我们的查询hotel向量和文章里面的motel向量却是正交的，算不出相似度。

分布相似表达

通过一个单词的上下文去表达这个单词。

You shall know a word by the company it keeps. --- JR. Firth

例如，下面用周围的单词去表达banking ：

government debt problems turning into banking crises as has happened in saying that Europe needs unified banking regulation to replace the hodgepodge

稠密词向量

一个单词的意义应该是由它本身的词向量来决定的。这个词向量可以预测出的上下文单词。

比如lingustics的词向量是 $[0.286, 0.792, - 0.177, - 0.107, 0.109, - 0.542, 0.349]$

词嵌入思想

构建一个模型，根据中心单词 $w_{t}$ ，通过自身词向量，去预测出它的上下文单词。

p (c o n t e x t ∣ w_{t}) = \dots

损失函数如下， $w_{- t}$ 表示 $w_{t}$ 的上下文（负号通常表示除了某某之外），如果完美预测，损失函数为0。

J = 1 - p (w_{- t} ∣ w_{t})

Word2Vec

在每个单词和其上下文之间进行预测。

有两种算法：

Skip-grams(SG)：给目标单词，预测上下文
Continuous Bag of Words(CBOW)：给上下文，预测目标单词

两个稍微高效的训练方法：

分层softmax
负采样

课上只是Naive softmax。两个模型，两种方法，一共有4种实现。这里是word2vec详细信息。

Skip-gram

对于每个单词 $w_{t}$ ，会选择一个上下文窗口 $m$ 。然后要预测出范围内的上下文单词，使概率 $P (w_{t + i} ∣ w_{t})$ 最大。

目标函数

$θ$ 是我们要训练的参数，目标函数就是所有位置预测结果的乘积，最大化目标函数：

J^{'} (θ) = \prod_{t = 1}^{T} \prod_{- m \leq j \leq m} p (w_{t + j} ∣ w_{t}; θ), t \neq j

一般使用negative log likelihood ：负采样教程。

要最大化目标函数，就得得到损失函数。对于对数似然函数，取其负对数就可以得到损失函数，再最小化损失函数，其中 $T$ 是文本长度， $m$ 是窗口大小：

J (θ) = - \frac{1}{T} \sum_{t = 1}^{T} \sum_{- m \leq j \leq m} \log P (w_{t + j} ∣ w_{t})

Loss 函数 = Cost 函数 = Objective 函数
对于softmax概率分布，一般使用交叉熵作为损失函数
单词 $w_{t + j}$ 是one-hot编码
negative log probability

Word2vec细节

词汇和词向量符号说明：

$u$ 上下文词向量，向量是 $d$ 维的
$v$ 词向量
中心词汇 $t$ ，对应的向量是 $v_{t}$
上下文词汇 $j$ ，对应的词向量是 $u_{j}$
一共有 $V$ 个词汇

计算 $p (w_{t + j} ∣ w_{t})$ ，即：

p (w_{j} ∣ w_{t}) = softmax (u_{j}^{T} \cdot v_{t}) = \frac{\exp (u_{j}^{T} \cdot v_{t})}{\sum_{i = 1}^{V} \exp (u_{i}^{T} \cdot v_{t})}

两个单词越相似，点积越大，向量点积如下：

u^{T} \cdot v = \sum_{i = 1}^{M} u_{i} \times v_{i}

softmax之所以叫softmax，是因为指数会让大的数越大，小的数越小。类似于max函数。下面是计算的详细信息：

一些理解和解释：

$w_{t}$ 是one-hot编码的中心词汇，维数是 $(V, 1)$
$W$ 是词汇表达矩阵，维数是 $(d, V)$ ，一列就是一个单词
$W w_{t} = v_{t}$ 相乘得到词向量 $v_{t}$ ， $(d, V) \cdot (V, 1) \to (d, 1)$ ， 用 $d$ 维向量去表达了词汇t
$W^{'}$ ， $W^{'} \cdot v_{t} = s$ ， $(V, d) \cdot (d, 1) \to (V, 1)$ ，得到语义相似度向量 $s$
再对 $s$ 进行softmax即可求得上下文词汇
每个单词有两个向量，作为center单词向量和context单词向量

偏导计算

设 $o$ 是上下文单词， $c$ 是中心单词，条件概率如下：

P (o ∣ c) = \frac{\exp (u_{o}^{T} \cdot v_{c})}{\sum_{i = 1}^{V} \exp (u_{i}^{T} \cdot v_{c})}

这里只计算 $\log P$ 对 $v_{c}$ 向量的偏导。

用 $θ$ 向量表示所有的参数，有 $V$ 个单词， $d$ 维向量。每个单词有2个向量。参数个数一共是 $2 d V$ 个。

向量偏导计算公式， $x, a$ 均是向量

\frac{\partial x^{T} a}{\partial x} = \frac{\partial a^{T} x}{\partial x} = a

函数偏导计算，链式法则， $y = f (u), u = g (x)$

\frac{d y}{d x} = \frac{d y}{d u} \frac{d u}{d x}

最小化损失函数：

J (θ) = - \frac{1}{T} \sum_{t = 1}^{T} \sum_{- m \leq j \leq m} \log P (w_{t + j} ∣ w_{t}), j \neq m

这里只计算 $v_{c}$ 的偏导，先进行分解原式为2个部分：

\frac{\partial}{\partial v_{c}} \log P (o ∣ c) = \frac{\partial}{\partial v_{c}} \log \frac{\exp (u_{o}^{T} \cdot v_{c})}{\sum_{i = 1}^{V} \exp (u_{i}^{T} \cdot v_{c})} = \underset{1}{\underset{⏟}{\frac{\partial}{\partial v_{c}} \log \exp (u_{o}^{T} \cdot v_{c})}} - \underset{2}{\underset{⏟}{\frac{\partial}{\partial v_{c}} \log \sum_{i = 1}^{V} \exp (u_{i}^{T} \cdot v_{c})}}

部分1推导

\begin{aligned} \frac{\partial}{\partial v_{c}} \log \exp (u_{o}^{T} \cdot v_{c}) & = \frac{\partial}{\partial v_{c}} u_{o}^{T} \cdot v_{c} = u_{o} \end{aligned}

部分2推导

\begin{aligned} \frac{\partial}{\partial v_{c}} \log \sum_{i = 1}^{V} \exp (u_{i}^{T} \cdot v_{c}) & = \frac{1}{\sum_{i = 1}^{V} \exp (u_{i}^{T} \cdot v_{c})} \cdot \frac{\partial}{\partial v_{c}} \sum_{x = 1}^{V} \exp (u_{x}^{T} \cdot v_{c}) \\ = \frac{1}{A} \cdot \sum_{x = 1}^{V} \frac{\partial}{\partial v_{c}} \exp (u_{x}^{T} \cdot v_{c}) \\ = \frac{1}{A} \cdot \sum_{x = 1}^{V} \exp (u_{x}^{T} \cdot v_{c}) \frac{\partial}{\partial v_{c}} u_{x}^{T} \cdot v_{c} \\ = \frac{1}{\sum_{i = 1}^{V} \exp (u_{i}^{T} \cdot v_{c})} \cdot \sum_{x = 1}^{V} \exp (u_{x}^{T} \cdot v_{c}) u_{x} \\ = \sum_{x = 1}^{V} \frac{\exp (u_{x}^{T} \cdot v_{c})}{\sum_{i = 1}^{V} \exp (u_{i}^{T} \cdot v_{c})} \cdot u_{x} \\ = \sum_{x = 1}^{V} P (x ∣ c) \cdot u_{x} \end{aligned}

所以，综合起来可以求得，单词o是单词c的上下文概率 $\log P (o ∣ c)$ 对center向量 $v_{c}$ 的偏导：

\frac{\partial}{\partial v_{c}} \log P (o ∣ c) = u_{o} - \sum_{x = 1}^{V} P (x ∣ c) \cdot u_{x} = 观察到的 - 期望的

实际上偏导是，单词 $o$ 的上下文词向量，减去，所有单词 $x$ 的上下文向量乘以x作为 $c$ 的上下文向量的概率。

总体梯度计算

在一个window里面，对中间词汇 $v_{c}$ 求了梯度，然后再对各个上下文词汇 $u_{o}$ 求梯度。然后更新这个window里面用到的参数。

比如句子We like learning NLP。设 $m = 1$ ：

中间词汇求梯度 $v_{l i k e}$
上下文词汇求梯度 $u_{w e}$ 和 $u_{l e a r n i n g}$
更新参数

梯度下降

有了梯度之后，参数减去梯度，就可以朝着最小的方向走了。机器学习梯度下降

θ^{n e w} = θ^{o l d} - α \frac{\partial}{\partial θ^{o l d}} J (θ), θ^{n e w} = θ^{o l d} - α Δ_{θ} J (θ)

随机梯度下降

预料会有很多个window，因此每次不能更新所有的。只更新每个window的，对于window t：

θ^{n e w} = θ^{o l d} - α Δ_{θ} J_{t} (θ)

Word2vec之公式推导笔记

Word meaning ​

词意 ​

传统离散表达 ​

分布相似表达 ​

词嵌入思想 ​

Word2Vec ​

Skip-gram ​

Word2vec细节 ​

偏导计算 ​

总体梯度计算 ​

梯度下降 ​