机器学习中最大熵模型的介绍，包括模型思想、学习问题、学习算法等

最大熵原理

预备知识

离散型变量 $X$ 的概率分布是 $P (X)$ 。它的熵 $H (X) o r H (P)$ 越大，代表越均匀、越混乱、越不确定。各种熵点这里

H (P) = - \sum_{x \in X} P (x) \log P (x)

熵满足下面不等式

0 \leq H (P) \leq \log | X |, 其 中 | X | 是 X 的 取 值 个 数

当前仅当 $X$ 的分布是均匀分布的时候等号成立。当 $X$ 服从均匀分布时，熵最大。

最大熵的思想

最大熵原理认为，学习概率模型时，在所有可能的概率模型中，熵最大的模型是最好的模型。

事情分为两个部分：确定的部分（约束条件）和不确定的部分。选择模型时要

要满足所有的约束条件，即满足已有的确定的事实
要均分不确定的部分

$X$ 有5个取值 ${A, B, C, D, E}$ ，取值概率分别为 $P (A), P (B), P (C), P (D), P (E)$ 。满足以下约束条件

P (A) + P (B) + P (C) + P (D) + P (E) = 1

满足这个条件的模型有很多。再加一个约束条件

P (A) + P (B) = \frac{3}{10}

则，满足约束条件，不确定的平分（熵最大）：这样的模型是最好的模型

P (A) = P (B) = \frac{3}{20}, P (C) = P (D) = P (E) = \frac{7}{30}

即：约束条件，熵最大

最大熵模型

假设分类模型是一个条件概率分布 $P (Y ∣ X)$ 。(有的不是选择条件模型，如论文里面)。训练数据集 $N$ 个样本 $T = {(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{N}, y_{N})}$

基本概念

联合分布： $P (X, Y)$
边缘分布： $P (X)$
联合经验分布： $\tilde{P} (X, Y) = \frac{v (X = x, Y = y)}{N}$ ，其中 $v (x, y)$ 为频数
联合边缘分布： $\tilde{P} (X) = \frac{v (X = x)}{N}$

特征函数 $f (x, y)$ 用来描述 $x$ 和 $y$ 满足的一个事实约束条件：

f (x, y) = {\begin{cases} 1, & x 与 y 满 足 一 个 事 实 ， 即 约 束 条 件 \\ 0, & 否 则 \end{cases}

如果有 $n$ 个特征函数 $f_{i} (x, y), i = 1, 2, \dots, n$ , 就有 $n$ 个约束条件。

概率期望的计算

$X$ 的期望

$X$ 是随机变量，概率分布是 $P (X)$ ，或概率密度函数是 $f (x)$

E (X) = {\begin{cases} \sum_{i} x_{i} P (x_{i}), & 离散 \\ \int_{- \infty}^{+ \infty} x \cdot f (x) d x, & 连续 \end{cases}

下面只考虑离散型的期望，连续型同理，求积分即可。

一元函数的期望

$Y = g (X)$ ，期望是

E [Y] = E [g (X)] = \sum_{i}^{\infty} g (x_{i}) \cdot P (x_{i})

二元函数的期望

$Z = g (X, Y)$ ，期望是

E (Z) = \sum_{x, y} g (x, y) \cdot p (x, y) = \sum_{i = 1} \sum_{j = 1} g (x_{i}, y_{j}) p (x_{i}, y_{j})

期望其实就是 $E 狗 = \sum 狗 \cdot 老概率$ 。可离散，可连续。

约束条件等式

实际分布期望

特征函数 $f (x, y)$ 关于经验分布 $\tilde{P} (x, y)$ 的期望 $E_{\tilde{P}} (f)$ ，即实际应该有的特征 ，也就是一个给模型加的约束条件 ：

E_{\tilde{P}} (f) = \sum_{x, y} \tilde{P} (x, y) f (x, y)

理论模型期望

特征函数 $f (x, y)$ 关于模型 $P (Y ∣ X)$ 和经验分布 $\tilde{P} (X)$ 的期望 $E_{P} (f)$ ，即理论上模型学得后的期望：

E_{P} (f) = \sum_{x, y} \tilde{P} (x) P (y ∣ x) f (x, y)

要从训练数据中获取信息，特征函数关于实际经验分布和理论模型的两个期望就得相等，即理论模型要满足实际约束条件

E_{\tilde{P}} (f) = E_{P} (f)

最大熵模型思想

条件概率分布 $P (Y ∣ X)$ 的条件熵为 $H (P)$ 如下，条件熵：

H (P) = - \sum_{x, y} \tilde{P} (x) P (y ∣ x) \log P (y ∣ x)

则满足约束条件 $E_{\tilde{P}} (f) = E_{P} (f)$ 的模型中，条件熵 $H (P)$ 最大的模型就是最大熵模型。

最大熵模型的学习

学习问题

最大熵模型的学习等价于约束最优化问题，这类问题可以用拉格朗日对偶性去求解。

给定数据集 $T = {(x_{1}, y_{1}), (x_{2}, y_{2}), \dots, (x_{N}, y_{N})}$ 和特征函数 $f_{i} (x, y), i = 1, 2, \dots, n$ 。

要满足2个约束条件

E_{\tilde{P}} (f) = E_{P} (f), \sum_{x, y} P (y ∣ x) = 1

要得到最大化熵

max_{P \in C} H (P) = - \sum_{x, y} \tilde{P} (x) P (y ∣ x) \log P (y ∣ x)

按照最优化问题的习惯，将求最大值问题改写为等价的求最小值问题 ，如下

min_{P \in C} - H (P) = \sum_{x, y} \tilde{P} (x) P (y ∣ x) \log P (y ∣ x)

推导最大熵模型

一般使用拉格朗日对偶性去求解，可以见李航书附录。引入拉格朗日乘子 $w = (w_{0}, w_{1}, \dots, w_{n})$ ，即参数向量，构造拉格朗日函数 $L (P, w)$ ：

L (P, w) = - H (P) + w_{0} \cdot (1 - \sum_{x, y} P (y ∣ x)) + \sum_{i = 1}^{n} w_{i} \cdot (E_{\tilde{P}} (f) - E_{P} (f))

由于是凸函数，根据相关性质，所以原始问题和对偶问题同解，原始问题如下：

min_{P \in C} max_{w} L (P, w)

对应的对偶问题如下：

max_{w} min_{P \in C} L (P, w)

主要思路是：先固定 $w$ ，去计算 $min_{P \in C} L (P, w)$ ，即去找到一个合适的 $P (Y ∣ X)$ 。再去找到一个合适的 $w$ 。

第一步：求解 $P$ 。设对偶函数 $Ψ (w)$ 如下：

Ψ (w) = min_{P \in C} L (P, w) = L (P_{w}, w)

对偶函数的解，即我们找到的 $P (Y ∣ X)$ ，记作 $P_{w}$ ，如下：

P_{w} = \arg min_{P \in C} L (P, w) = P_{w} (y ∣ x)

用 $L (P, w)$ 对 $P$ 进行求偏导，令偏导为0，可以解得 $P_{w}$ ，即最大熵模型 如下：

P_{w} (y ∣ x) = \frac{1}{Z_{w} (x)} \cdot \exp (\sum_{i = 1}^{n} w_{i} f_{i} (x, y)), Z_{w} (x) = \sum_{y} \exp (\sum_{i = 1}^{n} w_{i} f_{i} (x, y))

其中 $Z_{w} (x)$ 是归一化因子， $f_{i} (x, y)$ 是特征函数， $w_{i}$ 是特征的权值， $P_{w} (y ∣ x)$ 就是最大熵模型， $w$ 是最大熵模型中的参数向量。

第二步：求解 $w$ 。即求 $w$ 去最大化对偶函数，设解为 $w^{*}$ 。可以使用最优化算法去求极大化。

w^{*} = \arg max_{w} Ψ (w)

最终，求到的 $P^{*} = P_{w^{*}} = P_{w^{*}} (y ∣ x)$ 就是学习得到的最大熵模型。

最大熵模型

最大熵模型如下，其中 $Z_{w} (x)$ 是归一化因子， $f_{i} (x, y)$ 是特征函数， $w_{i}$ 是特征的权值 。

P_{w} (y ∣ x) = \frac{1}{Z_{w} (x)} \cdot \exp (\sum_{i = 1}^{n} w_{i} f_{i} (x, y)), Z_{w} (x) = \sum_{y} \exp (\sum_{i = 1}^{n} w_{i} f_{i} (x, y))

极大似然估计

其实对偶函数 $Ψ (w)$ 的极大化等价于最大熵模型的极大似然估计。

已知训练数据的经验分布 $\tilde{P} (X, Y)$ ，条件概率分布的 $P (Y ∣ X)$ 的对数似然函数是：

\begin{aligned} L_{\tilde{P}} (P_{w}) & = \log \prod_{x, y} P (y ∣ x)^{\tilde{P} (X, Y)} = \sum_{x, y} \tilde{P} (x, y) \log P (y ∣ x) \\ = \sum_{x, y} \tilde{P} (X, Y) \sum_{i = 1}^{n} w_{i} f_{i} (x, y) - \sum_{x} \tilde{P} (X) \log Z_{w} (x) \end{aligned}

可以证明得到，$L_{\widetilde P}(P_w) = \Psi (w) $，极大似然函数等于对偶函数。

模型学习的最优化算法

逻辑回归、最大熵模型的学习都是以似然函数为目标函数的最优化问题，可以通过迭代算法求解。这个目标函数是个光滑的凸函数。通过很多方法都可以保证找到全局最优解，常用的有改进的迭代尺度法、梯度下降法、牛顿法或拟牛顿法，其中牛顿法和拟牛顿法一般收敛速度更快。

改进的迭代尺度法

改进的迭代尺度法(improved iterative scaling, IIS)是一种最大熵模型学习的最优化算法。

已知最大熵模型如下：

P_{w} (y ∣ x) = \frac{1}{Z_{w} (x)} \cdot \exp (\sum_{i = 1}^{n} w_{i} f_{i} (x, y)), Z_{w} (x) = \sum_{y} \exp (\sum_{i = 1}^{n} w_{i} f_{i} (x, y))

对数似然函数如下：

L_{\tilde{P}} (P_{w}) = \sum_{x, y} \tilde{P} (X, Y) \sum_{i = 1}^{n} w_{i} f_{i} (x, y) - \sum_{x} \tilde{P} (X) \log Z_{w} (x)

目标是：通过极大似然估计学习模型参数，即求对数似然函数的极大值 $\hat{w}$ 。

基本思想

当前参数向量 $w = (w_{1}, w_{2}, \dots, w_{n})^{T}$ ，找到一个新的参数向量 $w + δ = (w_{1} + δ_{1}, w_{2} + δ_{2}, \dots, w_{n} + δ_{n})$ ，使得每次更新都使似然函数值增大。

由于 $δ$ 是一个向量，含有多个变量，不易同时优化。所以IIS 每次只优化其中一个变量 $δ_{i}$ ，而固定其他变量 $δ_{j}$ 。

设所有特征在 $(x, y)$ 中的出现次数 $f^{#} (x, y) = M$ ：

f^{#} (x, y) = \sum_{i} f_{i} (x, y)

计算每次的改变量：

L (w + δ) - L (w) \geq B (δ ∣ w), 改 变 量 的 下 界 限

如果找到适当的 $δ$ 使得改变量的下界 $B (δ ∣ w)$ 提高，则对数似然函数也能提高。

计算 $B (δ ∣ w)$ 对 $δ_{i}$ 求偏导，令偏导等于0，得如下方程：

\sum_{x, y} \tilde{P} (x) P_{w} (y ∣ x) f_{i} (x, y) \exp (δ_{i} f^{#} (x, y)) = E_{\tilde{p}} (f_{i}), 其 中 E_{\tilde{p}} (f_{i}) = \sum_{x, y} \tilde{P} (x, y) f_{i} (x, y)

然后，依次对 $δ_{i} $ 求解该方程，就可以求得 $δ $ ，也就能够更新 $w $ ，即 $w \to w + δ $

算法步骤

输入：特征函数 $f_{1}, \dots, f_{n}$ ；经验分布 $\tilde{P} (x, y)$ ，模型 $P_{w} (y ∣ x)$

输出：最优参数值 $w_{i}^{*}$ ；最优模型 $P_{w^{*}}$

(1) 初始化参数，取初值 $w_{i} = 0$

(2) 求解方程 $δ_{i}$

\sum_{x, y} \tilde{P} (x) P_{w} (y ∣ x) f_{i} (x, y) \exp (δ_{i} f^{#} (x, y)) = E_{\tilde{p}} (f_{i}),

(3) 更新参数 $w_{i} + δ_{i} \to w_{i}$

其中解方程的时候，如果特征出现次数 $f^{#} (x, y)$ 是常数 $M$ ，则可以直接计算 $δ_{i}$ ：

δ_{i} = \frac{1}{M} \log \frac{E_{\tilde{p}} (f_{i})}{E_{p} (f_{i})}

如果 $f^{#} (x, y)$ 不是常数，则必须通过数值计算 $δ_{i}$ 。最简单就是通过牛顿迭代法去迭代求解 $δ_{i}^{*}$ 。以 $g (δ_{i}) = 0$ 表示该方程，进行如下迭代：

δ_{i}^{(k + 1)} = δ_{i}^{(k)} - \frac{g (δ_{i}^{(k)})}{g^{'} (δ_{i}^{(k)})}

最大熵模型

最大熵原理 ​

预备知识 ​

最大熵的思想 ​

最大熵模型 ​

基本概念 ​

概率期望的计算 ​

约束条件等式 ​

最大熵模型思想 ​

最大熵模型的学习 ​

学习问题 ​

推导最大熵模型 ​

最大熵模型 ​

极大似然估计 ​

模型学习的最优化算法 ​

改进的迭代尺度法 ​

最大熵原理

预备知识

最大熵的思想

最大熵模型

基本概念

概率期望的计算

约束条件等式

最大熵模型思想

最大熵模型的学习

学习问题

推导最大熵模型

最大熵模型

极大似然估计

模型学习的最优化算法

改进的迭代尺度法