本文简单记录了EM算法的思想和Jensen不等式
EM算法定义
背景
如果概率模型的变量都是观测变量,那么可以直接使用极大似然估计法
或贝叶斯估计法
去估计模型参数。
如果模型既有观测变量又有隐变量,就不能简单使用上述方法。
EM
算法,期望极大算法,就是含有隐变量的概率模型参数的极大似然估计法或极大后验概率估计法,是一种迭代算法。每次迭代分为如下两步
- E步:求期望(expectation)
- M步:求极大(maximization)
三硬币模型
有3枚硬币,记做ABC,每次出现正面的概率分别是
- 观察变量:一次 实验得到的结果1或0,记做
- 隐变量:A的结果,即掷的是B还是C,记做
对于一次实验,求出
设观察序列
求模型参数
这个问题不能直接求解,只有通过迭代的方法求解。EM算法就是解决这种问题的一种迭代算法。先给
EM算法
基本概念
一些概念如下
观测变量, 隐变量 - 不完全数据:
;概率分布: ;对数似然函数: - 完全数据:
和 合在一起;概率分布: ;对数似然函数:
EM算法通过迭代求
概率论函数的期望
设
Q函数
下面是我具体的理解
是第 次迭代参数 的估计值 是以 和当前参数 的条件下的分布律,简写为 。类似于上面的 是在以 为参数的分布的联合概率密度,简写为 。类似于上面的 求对数似然函数
的期望,转移到隐变量 上 把目标函数映射到
上, , 是因为要找到一个新的 优于之前的 ,是代表的分布优于
EM算法步骤
输入:
输出:模型参数
步骤
- 选择参数初始值
,开始迭代 - E步:第
次迭代, 求 - M步:求使
极大化的 ,得到 次迭代新的估计值 - 重复E和M步,直到收敛
Jensen不等式
凸函数与凹函数
从图像上讲,在函数上两点连接一条直线。直线完全在图像上面,就是凸函数 convex
;完全在下面,就是凹函数 concave
。

Jensen不等式
函数
- 如果
是凸函数, - 如果
是凹函数,
一般地,
琴声不等式
- 凸函数
,即 - 凹函数
,即
