本文包括概率图模型、马尔科夫模型和隐马尔可夫模型。重点是HMM的前后向算法、维特比算法和BW算法

概述

产生式和判别式

判别方法 由数据直接去学习决策函数 $Y = f (X)$ 或者 $P (Y ∣ X)$ 作为预测模型，即判别模型

生成方法 先求出联合概率密度 $P (X, Y)$ ，然后求出条件概率密度 $P (Y ∣ X)$ 。即生成模型 $P (Y ∣ X) = \frac{P (X, Y)}{P (X)}$

	判别式	生成式
原理	直接求 $Y = f (X)$ 或 $P (Y ∣ X)$	先求 $P (X, Y)$ ，然后 $P (Y ∣ X) = \frac{P (X, Y)}{P (X)}$
差别	只关心差别，根据差别分类	关心数据怎么生成的，然后进行分类
应用	k近邻、感知机、决策树、LR、SVM	朴素贝叶斯、隐马尔可夫模型

概率图模型

概率图模型(probabilistic graphical models) 在概率模型的基础上，使用了基于图的方法来表示概率分布。节点表示变量，边表示变量之间的概率关系

概率图模型便于理解、降低参数、简化计算，在下文的贝叶斯网络中会进行说明。

贝叶斯网络

贝叶斯网络 又称为信度网络或者信念网络（belief networks），实际上就是一个有向无环图。

节点表示随机变量；边表示条件依存关系。没有边说明两个变量在某些情况下条件独立或者说是计算独立，有边说明任何条件下都不条件独立。

如上图所示，要表示上述情况的概率只需要求出 $4 * 2 * 2 * 2 * 2 - 1 = 63$ 个参数的联合概率密度就行了，实际上这个太难以求得。我们可以考虑一下独立关系 $(F ⊥ H ∣ S) 表示在 S 确定的情况下， F 和 H 独立$ ，所以有以下独立关系：

(F ⊥ H ∣ S) 、 (C ⊥ S ∣ F, H) 、 (M ⊥ H, C ∣ F) 、 (M ⊥ C | F)

所以我们得到如下的计算独立假设：

P (C ∣ F H S) = P (C ∣ F H) ， 即 假 设 C 只 与 F H 有 关 ， 而 与 S 无 关

又由 $P (A B) = P (A | B) P (B)$ ，所以得到联合概率分布：

\begin{aligned} P (S F H M C) & = P (M ∣ S H F C) \cdot P (S H F C) = \underset{计 算 独 立 性}{\underset{⏟}{P (M ∣ F)}} \cdot \underset{继 续 分 解}{\underset{⏟}{P (C ∣ S H F) \cdot P (S H F)}} \\ = P (M ∣ F) \cdot P (C ∣ F H) \cdot P (F ∣ S) \cdot P (H ∣ S) \cdot P (S) \end{aligned}

$P (S)$ 4个季节，需要3个参数； $P (H ∣ S)$ 时， $P (Y ∣ S p r i n g)$ 和 $P (N ∣ S p r i n g)$ 只需要一个参数，所以 $P (H ∣ S)$ 只需要4个参数即可，其他同理。

所以联合概率密度就转化成了上述公式中的5个乘积项，其中每一项需要的参数个数分别是2、4、4、4、3，所以一共只需要17个参数，这就大大降低了参数的个数。

马尔可夫模型

简介

马尔可夫模型(Markov Model) 描述了一类重要的随机过程，未来只依赖于现在，不依赖于过去。这样的特性的称为马尔可夫性，具有这样特性的过程称为马尔可夫过程。

时间和状态都是离散的马尔可夫过程称为马尔可夫链，简称马氏链，关键定义如下

系统有 $N$ 个状态 $S = {s_{1}, s_{2}, \dots, s_{N}}$ ，随着时间的推移，系统将从某一状态转移到另一状态
设 $q_{t} \in S$ 是系统在 $t$ 时刻的状态， $Q = {q_{q}, q_{2}, \dots, q_{T}}$ 系统时间的随机变量序列

一般地，系统在时间 $t$ 时的状态 $s_{j}$ 取决于 $[1, t - 1]$ 的所有状态 ${q_{1}, q_{2}, \dots, q_{t - 1}}$ ，则当前时间的概率是

P (q_{t} = s_{j} ∣ q_{t - 1} = s_{i}, q_{t - 2} = s_{k}, \dots)

在时刻 $m$ 处于 $s_{i}$ 状态，那么在时刻 $m + n$ 转移到状态 $s_{j}$ 的概率称为转移概率，即从时刻 $m \to m + n$ ：

P_{i j} (m, m + n) = P (q_{m + n} = s_{j} ∣ q_{m} = s_{i})

如果 $P_{i j} (m, m + n)$ 只与状态 $i, j$ 和步长 $n$ 有关，而与起始时间 $m$ 无关，则记为 $P_{i j} (n)$ ,称为n步转移概率。并且称此转移概率具有平稳性，且称此链是齐次的，称为齐次马氏链，我们重点研究齐次马氏链。 $P (n) = [P_{i j} (n)]$ 称为n步转移矩阵。

P_{i j} (m, m + n) = P_{i j} (n) = P (q_{m + n} = s_{j} ∣ q_{m} = s_{i})

特别地， $n = 1$ 时，有一步转移概率如下

p_{i j} = P_{i j} (1) = P (q_{m + 1} ∣ q_{m}) = a_{i j}

一阶马尔可夫

特别地，如果** $t$ 时刻状态只与 $t - 1$ 时刻状态有关**，那么下有离散的一阶马尔可夫链如下：

P (q_{t} = s_{j} ∣ q_{t - 1} = s_{i}, q_{t - 2} = s_{k}, \dots) = P (q_{t} = s_{j} ∣ q_{t - 1} = s_{i})

其中 $t - 1 $ 的状态 $s_{i} $ 转移到 $t $ 的状态 $s_{j} $ 的概率定义如下：

P (q_{t} = s_{j} ∣ q_{t - 1} = s_{i}) = a_{i j} ， 其 中 i, j \in [1, N] ， a_{i j} \geq 0 ， \sum_{j = 1}^{N} a_{i j} = 1

显然， $N $ 个状态的一阶马尔可夫链有 $N^{2} $ 次状态转移，这些概率 $a_{i j} $ 构成了状态转移矩阵。

A = [a_{i j}] = [\begin{matrix} a_{11} & a_{12} & \dots & a_{1 n} \\ a_{21} & a_{22} & \dots & a_{2 n} \\ ⋮ & ⋮ & ⋱ & ⋮ \\ a_{n 1} & a_{n 2} & \dots & a_{n n} \end{matrix}]

设系统在初始状态的概率向量是 $π_{i} \geq 0$ ，其中， $\sum_{i = 1}^{N} π_{i} = 1$

那么时间序列 $Q = {q_{1}, q_{2}, \dots, q_{T}}$ 出现的概率是

P (q_{1}, q_{2}, \dots, q_{T}) = P (q_{1}) P (q 2 ∣ q_{1}) P (q_{3} ∣ q_{2}) \dots P (q_{T} ∣ q_{T - 1}) = \underset{初 态 概 率}{\underset{⏟}{π_{q_{1}}}} \prod_{t = 1}^{T - 1} a_{q_{t} q_{t + 1}}

下图是一个例子

多步转移概率

对于齐次马氏链，多步转移概率就是 $u + v$ 时间段的状态转移，可以分解为先转移 $u$ 步，再转移 $v$ 步。则有CK方程的矩阵形式

P (u + v) = P (u) P (v)

由此得到 $n$ 步转移概率矩阵是一次转移概率矩阵的 $n$ 次方

P (n) = P (1) P (n - 1) = P P (n - 1) ⟹ P (n) = P^{n}

对于求矩阵的幂 $A^{n}$ ，则最好使用相似对角化来进行矩阵连乘。

存在一个可逆矩阵P，使得 $P^{- 1} A P = Λ ， A = P Λ P^{- 1}$ ，其中 $Λ$ 是矩阵 $A$ 的特征值矩阵

Λ = [\begin{matrix} λ_{1} \\ λ_{2} \\ ⋱ \\ λ_{n} \end{matrix}] ， 其 中 λ 是 矩 阵 A 的 特 征 值

则有 $A^{n} = P Λ^{n} P^{- 1}$

遍历性

齐次马氏链，状态 $i$ 向状态 $j$ 转移，经过无穷步，任何状态 $s_{i}$ 经过无穷步转移到状态 $s_{j}$ 的概率收敛于一个定值 $π_{j}$ ，即 $lim_{n \to \infty} P_{i j} (n) = π_{j} (与 i 无关)$ 则称此链具有遍历性。若 $\sum_{j = 1}^{N} π_{j} = 1$ ，则称 $\vec{π} = (π_{1}, π_{2}, \dots)$ 为链的极限分布。

遍历性的充分条件：如果存在正整数 $m$ (步数)，使得对于任意的，都有如下（转移概率大于0），则该马氏链具有遍历性

P_{i j} (m) > 0, i, j = 1, 2, \dots, N, s_{i}, s_{j} \in S

那么它的极限分布 $\vec{π} = (π_{1}, π_{2}, \dots, π_{N}) $ ，它是下面方程组的唯一解

π = π P, 即 π_{j} = \sum_{i = 1}^{N} π_{i} p_{i j}, 其 中 π_{j} > 0, \sum_{j = 1}^{N} π_{j} = 1

PageRank应用

有很多应用，压缩算法、排队论等统计建模、语音识别、基因预测、搜索引擎鉴别网页质量-PR值。

Page Rank算法

这是Google最核心的算法，用于给每个网页价值评分，是Google“在垃圾中找黄金”的关键算法。

大致思想是要为搜索引擎返回最相关的页面。页面相关度是由和当前网页相关的一些页面决定的。

当前页面会把自己的importance平均传递给它所指向的页面，若有 $k$ 个，则为每个传递 $\frac{1}{k}$
如果有很多页面都指向当前页面，则当前页面很重要，相关度高
当前页面有一些来自官方页面的backlink，当前页面很重要

例如有4个页面，分别如下

矩阵 $A$ 是页面跳转的一次转移矩阵， $q$ 是当前时间每个页面的相关度向量，即PageRank vector。

A = [\begin{matrix} 0 & 0 & 1 & \frac{1}{2} \\ \frac{1}{3} & 0 & 0 & 0 \\ \frac{1}{3} & \frac{1}{2} & 0 & \frac{1}{2} \\ \frac{1}{3} & \frac{1}{2} & 0 & 0 \end{matrix}] 初 始 时 刻 ， q = [\begin{matrix} \frac{1}{4} \\ \frac{1}{4} \\ \frac{1}{4} \\ \frac{1}{4} \end{matrix}]

$A$ 的一列是当前页面出去的所有页面，一行是进入当前页面的所有页面。设 $u$ 表示第 $A$ 的第 $i$ 行，那么 $u * q$ 就表示当页面 $i$ 接受当前 $q$ 的更新后的rank值。

定义矩阵 $G = α A + (1 - α) \frac{1}{n} U$ ，对 $A$ 进行修正， $G$ 所有元素大于0，具有遍历性

$α \in [0, 1] (α = 0.85)$ 阻尼因子
$A$ 一步转移矩阵
$n$ 页面数量
$U$ 元素全为 $1$ 的矩阵

使用 $G$ 进行迭代的好处

解决了很多 $A$ 元素为0导致的问题，如没有超链接的节点，不连接的图等
$A$ 所有元素大于0，具有遍历性，具有极限分布，即它的极限分布 $q$ 会收敛

那么通过迭代就可以求出PR向量 $q^{n e x t} = G q^{c u r}$ ，实际上 $q$ 是 $G$ 的特征值为1的特征向量。

迭代具体计算如下图(下图没有使用G，是使用A去算的，这是网上找的图[捂脸])

随着迭代， $q$ 会收敛，那么称为 $q$ 就是PageRank vector。

我们知道节点1有2个backlink，3有3个backlink。但是节点1却比3更加相关，这是为什么呢？因为节点3虽然有3个backlink，但是却只有1个outgoing，只指向了页面1。这样的话它就把它所有的importance都传递给了1，所以页面1也就比页面3的相关度高。

隐马尔可夫模型

定义

隐马尔可夫模型（Hidden Markov Model， HMM）是统计模型，它用来描述含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数，然后利用这些参数来做进一步的分析。大概形状如下

一个HMM由以下5个部分构成。

隐藏状态

模型的状态，隐蔽不可观察
有 $N$ 种，隐状态种类集合 $S = {s_{1}, s_{2}, \dots, s_{N}}$ 会相
隐藏状态互相互转换，一步转移。 $s_{i}$ 转移到 $s_{j}$ 的概率 $a_{i j} = P (q_{t} = s_{j} ∣ q_{t - 1} = s_{i})$
$q_{t} = s_{i}$ 代表在 $t$ 时刻，系统隐藏状态 $q_{t}$ 是 $s_{i}$
隐状态时间序列 $Q = {q_{1}, q_{2}, \dots, q_{t}, q_{t + 1} \dots}$

观察状态

模型可以显示观察到的状态
有 $M$ 种，显状态种类集合 $K = {v_{1}, v_{2}, \dots, v_{M}}$ 。不能相互转换，只能由隐状态产生(发射)
$o_{t} = v_{k} $ 代表在 $t $ 时刻，系统的观察状态 $o_{t} $ 是 $v_{k} $
每一个隐藏状态会发射一个观察状态。 $s_{j}$ 发射符号 $v_{k}$ 的概率 $b_{j} (k) = P (o_{t} = v_{k} ∣ s_{j})$
显状态时间序列 $O = {o_{1}, o_{2}, \dots, o_{t}}$

状态转移矩阵A (隐--隐)

从一个隐状 $s_{i}$ 转移到另一个隐状 $s_{j}$ 的概率。 $A = {a_{i j}}$
$a_{i j} = P (q_{t} = s_{j} ∣ q_{t - 1} = s_{i})$ ，其中 $1 \leq i, j \leq N, a_{i j} \geq 0, \sum_{j = 1}^{N} a_{i j} = 1$

发射概率矩阵B (隐--显)

一个隐状 $s_{j}$ 发射出一个显状 $v_{k}$ 的概率。 $B = {b_{j} (k)}$
$b_{j} (k) = P (o_{t} = v_{k} ∣ s_{j})$ ，其中 $1 \leq j \leq N; 1 \leq k \leq M; b_{j k} \geq 0; \sum_{k = 1}^{M} b_{j k} = 1$

初始状态概率分布 $π$

最初的隐状态 $q_{1} = s_{i}$ 的概率是 $π_{i} = P (q_{1} = s_{i})$
其中 $1 \leq i \leq N, π_{i} \geq 0, \sum_{i = 1}^{N} π_{i} = 1$

一般地，一个HMM记作一个五元组 $μ = (S, K, A, B, π)$ ，有时也简单记作 $μ = (A, B, π)$ 。一般，当考虑潜在事件随机生成表面事件的时候，HMM是非常有用的。

HMM中的三个问题

观察序列概率 给定观察序列 $O = {o_{1}, o_{2}, \dots, o_{T}}$ 和模型 $μ = (A, B, π)$ ，求当前观察序列 $O$ 的出现概率 $P (O ∣ μ)$
状态序列概率 给定观察序列 $O = {o_{1}, o_{2}, \dots, o_{T}}$ 和模型 $μ = (A, B, π)$ ，求一个最优的状态序列 $Q = {q_{1}, q_{2}, \dots, q_{T}}$ 的出现概率，使得最好解释当前观察序列 $O$
训练问题或参数估计问题 给定观察序列 $O = {o_{1}, o_{2}, \dots, o_{T}}$ ，调节模型 $μ = (A, B, π)$ 参数，使得 $P (O ∣ u)$ 最大

前后向算法

给定观察序列 $O = {o_{1}, o_{2}, \dots, o_{T}}$ 和模型 $μ = (A, B, π)$ ，求给定模型 $μ$ 的情况下观察序列 $O$ 的出现概率。这是解码问题。如果直接去求，计算量会出现指数爆炸，那么会很不好求。我们这里使用前向算法和后向算法进行求解。

前向算法

前向变量 $α_{t} (i)$ 是系统在 $t$ 时刻，观察序列为 $O = o_{1} o_{2} \dots o_{t}$ 并且隐状态为 $q_{t} = s_{i}$ 的概率，即

α_{t} (i) = P (o_{1} o_{2} \dots o_{t}, q_{t} = s_{i} ∣ μ)

$P (O ∣ μ)$ 是在 $t$ 时刻，状态 $q_{t} =$ 所有隐状态的情况下，输出序列 $O$ 的概率之和

P (O ∣ μ) = \sum_{i = 1}^{N} P (O, q_{t} = s_{i} ∣ μ) = \sum_{i = 1}^{N} α_{t} (i)

接下来就是计算 $α_{t} (i)$ ，其实是有动态规划的思想，有如下递推公式

α_{t + 1} (j) = \underset{所 有 状 态 i 转 为 j 的 概 率}{\underset{⏟}{(\sum_{i = 1}^{N} α_{t} (i) a_{i j})}} \underset{状 态 j 发 射 o_{t + 1}}{\underset{⏟}{b_{j} (o_{t + 1})}}

上述计算，其实是分为了下面3步

从1到达时间 $t$ ，状态为 $s_{i}$ ，输出 $o_{1} o_{2} \dots o_{t}$ 。 $α_{t} (i)$
从 $t$ 到达 $t + 1$ ，状态变化 $s_{i} \to s_{j} 。 a_{i j}$
在 $t + 1$ 时刻，输出 $o_{t + 1}$ 。 $b_{j} (o_{t + 1})$

算法的步骤如下

初始化 $α_{1} (i) = π_{i} b_{i} (o_{1}), 1 \leq i \leq N$
归纳计算 $α_{t + 1} (j) = (\sum_{i = 1}^{N} α_{t} (i) a_{i j}) b_{j} (o_{t + 1}), 1 \leq t \leq T - 1$
求和终结 $P (O ∣ μ) = \sum_{i = 1}^{N} α_{T} (i)$

在每个时刻 $t$ ，需要考虑 $N$ 个状态转移到 $s_{j}$ 的可能性，同时也需要计算 $α_{t} (1), \dots, α_{t} (N)$ ，所以时间复杂度为 $O (N^{2})$ 。同时在系统中有 $T$ 个时间，所以总的复杂度为 $O (N^{2} T)$ 。

后向算法

后向变量 $β_{t} (i)$ 是系统在 $t$ 时刻，状态为 $s_{i}$ 的条件下，输出为 $o_{t + 1} o_{t + 2} \dots o_{T}$ 的概率，即

β_{t} (i) = P (o_{t + 1} o_{t + 2} \dots o_{T} ∣ q_{t} = s_{i}, μ)

递推 $β_{t} (i)$ 的思路及公式如下

从 $t \to t + 1$ ，状态变化 $s_{i} \to s_{j}$ ，并从 $s_{j} ⟹ o_{t + 1}$ ，发射 $o_{t + 1}$
在 $q_{t + 1} = s_{j}$ 的条件下，输出序列 $o_{t + 2} \dots o_{T}$

β_{t} (i) = \sum_{j = 1}^{N} \underset{s_{i} 转 s_{j} s_{j} 发 o_{t + 1} t + 1 时 s_{j} 后 面 {o_{t + 2}, \dots}}{\underset{⏟}{a_{i j} b_{j} (o_{t + 1}) β_{t + 1} (j)}}

上面的公式个人的思路解释如下(不明白公式再看)

其实要从 $β_{t + 1} (j) \to β_{t} (i)$
$β_{t + 1} (j)$ 是 $t + 1$ 时刻状态为 $s_{j}$ ，后面的观察序列为 $o_{t + 2}, \dots, o_{T}$
$β_{t} (i)$ 是 $t$ 时刻状态为 $s_{i}$ ，后面的观察序列为 $o_{t + 1}, o_{t + 2}, \dots, o_{T}$
$t \to t + 1$ $s_{i}$ 会变成各种 $s_{j}$ ， $β_{t} (i)$ 只关心t+1时刻的显示状态为 $o_{t + 1}$ ，而不关心隐状态，所以是所有隐状态发射 $o_{t + 1}$ 的概率和
$a_{i j} b_{j} (o_{t + 1}) β_{t + 1} (j)$ ， $s_{i}$ 转为 $s_{j}$ 的概率，在t+1时刻 $s_{j}$ 发射 $o_{t + 1}$ 的概率，t+1时刻状态为 $s_{j}$ 观察序列为 $o_{t + 2}, \dots, o_{T}$ 的概率
把上述概率加起来，就得到了t时刻为 $s_{i}$ ,后面的观察为 $o_{t + 1}, o_{t + 2}, \dots, o_{T}$ 的概率 $β_{t} (i)$

上式是把所有从 $t + 1 \to t$ 的概率加起来，得到 $t$ 的概率。算法步骤如下

初始化 $β_{T} (i) = 1, 1 \leq i \leq N$
归纳计算 $β_{t} (i) = \sum_{j = 1}^{N} a_{i j} b_{j} (o_{t + 1}) β_{t + 1} (j), 1 \leq t \leq T - 1; 1 \leq i \leq N$
求和终结 $P (O ∣ μ) = \sum_{i = 1}^{N} π_{i} b_{i} (o_{1}) β_{1} (i)$

前后向算法结合

模型 $μ$ ，观察序列 $O = {o_{1}, o_{2}, \dots, o_{t}, o_{t + 1} \dots, o_{T}}$ ， $t$ 时刻状态为 $q_{t} = s_{i}$ 的概率如下

P (O, q_{t} = s_{i} ∣ μ) = α_{t} (i) \times β_{t} (i)

推导过程如下

\begin{aligned} P (O, q_{t} = s_{i} ∣ μ) & = P (o_{1} \dots o_{T}, q_{t} = s_{i} ∣ μ) = P (o_{1} \dots o_{t}, q_{t} = s_{i}, o_{t + 1} \dots o_{T} ∣ μ) \\ = P (o_{1} \dots o_{t}, q_{t} = s_{i} ∣ μ) \times P (o_{t + 1} \dots o_{T} ∣ o_{1} \dots o_{t}, q_{t} = s_{i}, μ) \\ = α_{t} (i) \times P ((o_{t + 1} \dots o_{T} ∣ q_{t} = s_{i}, μ) (显 然 o_{1} \dots o_{t} 是 显 然 成 立 的 ， 概 率 为 1 ， 条 件 忽 略) \\ = α_{t} (i) \times β_{t} (i) \end{aligned}

所以，把 $q_{t}$ 等于所有 $s_{i}$ 的概率加起来就可以得到观察概率 $P (O ∣ μ)$

P (O ∣ μ) = \sum_{i = 1}^{N} α_{t} (i) \times β_{t} (i), 1 \leq t \leq T

维特比算法

维特比(Viterbi)算法用于求解HMM的第二个问题状态序列问题。即给定观察序列 $O = o_{1} o_{2} \dots o_{T}$ 和模型 $μ = (A, B, π)$ ，求一个最优的状态序列 $Q = q_{1} q_{2} \dots q_{T}$ 。

有两种理解最优的思路。

使该状态序列中每一个状态都单独地具有最大概率，即 $γ_{t} (i) = P (q_{t} = s_{i} ∣ O, μ)$ 最大。但可能出现 $a_{q_{t} q_{t + 1}} = 0$ 的情况
另一种是，使整个状态序列概率最大，即 $P (Q ∣ O, μ)$ 最大。 $\hat{Q} = a r g max_{Q} P (Q ∣ O, μ)$

维特比变量 $δ_{t} (i)$ 是，在 $t$ 时刻， $q_{t} = s_{i}$ ，HMM沿着某一条路径到达状态 $s_{i}$ ，并输出观察序列 $o_{1} o_{2} \dots o_{t}$ 的概率。

δ_{t} (i) = \arg max_{q_{1} \dots q_{t - 1}} P (q_{1} \dots q_{t - 1}, q_{t} = s_{i}, o_{1} \dots o_{t} ∣ μ)

递推关系

δ_{t + 1} (i) = max_{j} [δ_{t} (j) \cdot a_{j i}] \cdot b_{i} (o_{t + 1})

路径记忆变量 $ψ_{t} (i) = k$ 表示 $q_{t} = s_{i}, q_{t - 1} = s_{k}$ ，即表示在该路径上状态 $q_{t} = s_{i}$ 的前一个状态 $q_{t - 1} = s_{k}$ 。

维特比算法步骤

初始化

$δ_{1} (i) = π_{i} b_{i} (o_{1}), 1 \leq i \leq N$ ，路径变量 $ψ_{1} (i) = 0$

归纳计算

维特比变量 $δ_{t} (j) = max_{1 \leq i \leq N} [δ_{t - 1} (i) \cdot a_{i j}] \cdot b_{j} (o_{t}), 2 \leq t \leq T; 1 \leq j \leq N$

记忆路径(记住参数 $i$ 就行) $ψ_{t} (j) = \arg max_{1 \leq i \leq N} [δ_{t - 1} (i) \cdot a_{i j}] \cdot b_{j} (o_{t}), 2 \leq t \leq T; 1 \leq j \leq N$

终结

\hat{Q_{T}} = \arg max_{1 \leq i \leq N} [δ_{T} (i)], \hat{P} (\hat{Q_{T}}) = max_{1 \leq i \leq N} [δ_{T} (i)]

路径（状态序列）回溯

$\hat{q_{t}} = ψ_{t + 1} ({\hat{q}}_{t + 1}), t = T - 1, T - 2, \dots, 1$

Baum-Welch算法

Baum-Welch算法用于解决HMM的第3个问题，参数估计问题，给定一个观察序列 $O = o_{1} o_{2} \dots o_{T}$ ，去调节模型 $μ = (A, B, π)$ 的参数使得 $P (O ∣ μ)$ 最大化，即 $\underset{μ}{a r g m a x} P (O_{t r a i n i n g} ∣ μ)$ 。模型参数主要是 $a_{i j}, b_{j} (k) 和 π_{i}$ ，详细信息见上文。

有完整语料库

如果我们知道观察序列 $O = o_{1} o_{2} \dots o_{T}$ 和状态序列 $Q = q_{1} q_{2} \dots q_{T}$ ，那么我们可以根据最大似然估计去计算HMM的参数。

设 $δ (x, y)$ 是克罗耐克函数，当 $x == y$ 时为1，否则为0。计算步骤如下

\begin{aligned} 初 始 概 率 {\bar{π}}_{i} = δ (q_{1}, s_{1}) \\ 转 移 概 率 {\bar{a}}_{i j} = \frac{s_{i} \to s_{j} 的 次 数}{s_{i} \to a l l 的 次 数} = \frac{\sum_{t = 1}^{T - 1} δ (q_{t}, s_{i}) \times δ (q_{t + 1}, s_{j})}{\sum_{t = 1}^{T - 1} δ (q_{t}, s_{i})} \\ 发 射 概 率 {\bar{b}}_{j} (k) = \frac{s_{j} \to v_{k} 的 次 数}{Q 到 达 q_{j} 的 次 数} = \frac{\sum_{t = 1}^{T} δ (q_{t}, s_{i}) \times δ (o_{t}, v_{k})}{\sum_{t = 1}^{T} δ (q_{t}, s_{j})} \end{aligned}

但是一般情况下是不知道隐藏状态序列 $Q $ 的，还好我们可以使用期望最大算法去进行含有隐变量的参数估计。主要思路如下。

我们可以给定初始值模型 $μ_{0}$ ，然后通过EM算法去估计隐变量 $Q$ 的期望来代替实际出现的次数，再通过上式去进行计算新的参数得到新的模型 $μ_{1}$ ，再如此迭代直到参数收敛。

这种迭代爬山算法可以局部地使 $P (O ∣ μ)$ 最大化，BW算法就是具体实现这种EM算法。

Baum-Welch算法

给定HMM的参数 $μ$ 和观察序列 $O = o_{1} o_{2} \dots o_{T}$ 。

定义t时刻状态为 $s_{i}$ 和t+1时刻状态为 $s_{j}$ 的概率是 $ξ_{t} (i, j) = P (q_{t} = s_{i}, q_{t + 1} = s_{j} ∣ O, μ)$

\begin{aligned} ξ_{t} (i, j) & = \frac{P (q_{t} = s_{i}, q_{t + 1} = s_{j}, O ∣ μ)}{P (O ∣ μ)} = \frac{α_{t} (i) a_{i j} b_{j} (o_{t + 1}) β_{t + 1} (j)}{P (O ∣ μ)} = \frac{\overset{o_{1} \dots o_{t}, o_{t + 1}, o_{t + 2} \dots o_{T}}{\overset{⏞}{α_{t} (i) a_{i j} b_{j} (o_{t + 1}) β_{t + 1} (j)}}}{\underset{ξ_{t} (i, j) 对 i j 求 和 ， 只 留 下 P (O ∣ μ)}{\underset{⏟}{\sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{t} (i) a_{i j} b_{j} (o_{t + 1}) β_{t + 1} (j)}}} \end{aligned}

定义** $t$ 时刻状态为 $s_{i}$ 的概率**是 $γ_{t} (i) = P (q_{t} = s_{i} ∣ O, μ)$

γ_{t} (i) = \sum_{j = 1}^{N} ξ_{t} (i, j)

那么有算法步骤如下（也称作前向后向算法）

1初始化

随机地给参数 $a_{i j}, b_{j} (k), π_{i}$ 赋值，当然要满足一些基本条件，各个概率和为1。得到模型 $μ_{0}$ ，令 $i = 0$ ，执行下面步骤

2EM步骤

2.1E步骤使用模型 $μ_{i}$ 计算 $ξ_{t} (i, j) 和 γ_{t} (i)$

ξ_{t} (i, j) = \frac{α_{t} (i) a_{i j} b_{j} (o_{t + 1}) β_{t + 1} (j)}{\sum_{i = 1}^{N} \sum_{j = 1}^{N} α_{t} (i) a_{i j} b_{j} (o_{t + 1}) β_{t + 1} (j)}, γ_{t} (i) = \sum_{j = 1}^{N} ξ_{t} (i, j)

2.2M步骤用上面算得的期望去估计参数

\begin{aligned} 初 始 概 率 {\bar{π}}_{i} = P (q_{1} = s_{i} ∣ O, μ) = γ_{1} (i) \\ 转 移 概 率 {\bar{a}}_{i j} = \frac{\sum_{t = 1}^{T - 1} ξ_{t} (i, j)}{\sum_{t = 1}^{T - 1} γ_{t} (i)} \\ 发 射 概 率 {\bar{b}}_{j} (k) = \frac{\sum_{t = 1}^{T} γ_{t} (j) \times δ (o_{t}, v_{k})}{\sum_{t = 1}^{T} γ_{t} (j)} \end{aligned}

3循环计算令 $i = i + 1$ ，直到参数收敛

马尔可夫模型

概述 ​

产生式和判别式 ​

概率图模型 ​

贝叶斯网络 ​

马尔可夫模型 ​

简介 ​

一阶马尔可夫 ​

多步转移概率 ​

遍历性 ​

PageRank应用 ​

隐马尔可夫模型 ​

定义 ​

前后向算法 ​

维特比算法 ​

Baum-Welch算法 ​

概述

产生式和判别式

概率图模型

贝叶斯网络

马尔可夫模型

简介

一阶马尔可夫

多步转移概率

遍历性

PageRank应用

隐马尔可夫模型

定义

前后向算法

维特比算法

Baum-Welch算法