Support Vector Machine简单笔记。特征空间上的间隔最大的线性分类器。学习策略是间隔最大化，转化为一个凸二次规划问题的求解。

SVM概览

线性分类器

逻辑回归的图像和公式如下，预测的分类为1的概率。

$$ h_\theta(x) = g(\theta^Tx), \quad g(z) = \frac{1}{1+e^{-z}}, \quad g(z) = \begin{cases} 1, & z\ge 0 \\ -1, & z < 0 \\ \end{cases} $$

y = {\begin{cases} 1, & h_{θ} (x) \geq 0.5, 即 θ^{T} x \geq 0 \\ 0, & h_{θ} (x) < 0.5, 即 θ^{T} x < 0 \end{cases}

其中 $θ^{T} x = w^{T} x + b = 0$ 是一个超平面。用分类函数表示 $f (x) = w^{T} x + b$ 。 $w$ 是这个超平面的法向量。

即对于任意一个x，有如下预测类别：

\hat{y} = {\begin{cases} 1, & f (x) \geq 0 \\ - 1, & f (x) < 0 \end{cases}

函数间隔与几何间隔

函数间隔

超平面 $w^{T} x + b = 0$ 确定后， $| w \cdot x + b |$ 表示点x到平面的距离，表示分类可靠性。距离越远，分类越可信。 $y$ 与 $w \cdot x + b$ 的符号的一致性表示分类的正确性。

超平面 $(w, b)$ 关于样本点 $(x_{i}, y_{i})$ 的**函数间隔 ${\hat{γ}}_{i}$ **如下：

{\hat{γ}}_{i} = y_{i} (w^{T} \cdot x_{i} + b)

超平面关于所有样本点的函数间隔 $\hat{γ} $ ：

\hat{γ} = min {\hat{γ}}_{i}

函数间隔的问题：w和b成比例改变，超平面未变，但函数间隔已变。

几何间隔

对函数间隔除以法向量的二范数，则得到超平面与点 $(x_{i}, y_{i})$ 的几何间隔 $γ_{i}$ ：

γ_{i} = \frac{{\hat{γ}}_{i}}{∥ w ∥} = \frac{y_{i} (w^{T} \cdot x_{i} + b)}{∥ w ∥}

超平面关于所有样本点的几何间隔：

γ = min γ_{i}

几何间隔才是直观上点到超平面的距离。

最大间隔分类器

分类时，超平面离数据点的间隔越大，分类的确信度也越大。所以要最大化这个几何间隔，目标函数如下：

L = max_{w, b} γ, s . t, γ_{i} \geq γ

用函数间隔 $\hat{γ}$ 描写为：

L = max_{w, b} \frac{\hat{γ}}{∥ w ∥}, s . t, {\hat{γ}}_{i} \geq \hat{γ}, 其中 {\hat{γ}}_{i} = y_{i} (w^{T} \cdot x_{i} + b)

函数间隔 $\hat{γ} $ 的取值并不会影响最优化问题的解。 $λ w, λ b \to λ \hat{γ} $

目标函数

取函数间隔为1， $\hat{γ} = 1$ ，则有目标函数：

L = max_{w, b} \frac{1}{∥ w ∥}, s . t, y_{i} (w^{T} x_{i} + b) \geq 1

支持向量是虚线边界上的点，则有：

{\begin{cases} y_{i} (w^{T} x_{i} + b) = 1, & 支 持 向 量 \\ y_{i} (w^{T} x_{i} + b) > 1, & 其 他 点 \end{cases}

分类

\hat{y} = {\begin{cases} 1, & f (x) \geq 0 \\ - 1, & f (x) < 0 \end{cases}

线性SVM

拉格朗日对偶性

1 原始问题

$f (x), c_{i} (x), h_{j} (x)$ 都连续可微。

最优化：

min_{x \in R} f (x)

有很多个约束条件（不等式约束和等式约束）：

c_{i} (x) \leq 0, h_{j} (x) = 0

求解原始问题

将约束问题无约束化。

引入拉格朗日函数，其中 $α_{i} (\geq 0)$ 和 $β_{j}$ 是拉格朗日乘子

L (x, α, β) = f (x) + \sum α_{i} c_{i} (x) + \sum β_{j} h_{j} (x)

定义关于 $x$ 的函数** $θ_{p} (x)$ **：

θ_{p} (x) = max_{α, β : α_{i} \geq 0} L (x, α, β)

θ_{p} (x) = {\begin{cases} f (x), & x 满 足 约 束 \\ + \infty, & 其 他 \end{cases}

$f (x)$ 求最小，则对 $θ_{p} (x)$ 求最小。

原始问题： 先固定x，优化出参数 $α, β$ ，再优化x。

min_{x} θ_{p} (x) = min_{x} max_{α, β : α_{i} \geq 0} L (x, α, β)

所以原始最优化问题 变为拉格朗日函数的极小极大问题。

定义原始问题的最优解 $p^{*}$ ：

p^{*} = min_{x} θ_{p} (x)

2 对偶问题

定义关于 $α, β$ 的函数 $θ_{d} (α, β)$

θ_{d} (α, β) = min_{x} L (x, α, β)

对偶问题：先固定参数 $α, β$ ，优化出x，再优化出参数。 先优化x。

max_{α, β : α_{i} \geq 0} θ_{d} (α, β) = max_{α, β : α_{i} \geq 0} min_{x} L (x, α, β)

原始问题： 先固定x，优化出参数 $α, β$ ，再优化x。先优化参数。

min_{x} θ_{p} (x) = min_{x} max_{α, β : α_{i} \geq 0} L (x, α, β)

定义对偶问题的最优值：

d^{*} = max_{α, β : α_{i} \geq 0} θ_{d} (α, β)

3 原始问题与对偶问题的关系

因为：

θ_{d} (α, β) = min_{x} L (x, α, β) \leq max_{α, β : α_{i} \geq 0} L (x, α, β) = θ_{p} (x)

定理1：如果原始问题与对偶问题均有最优值，则有： $d^{*} \leq p^{*}$

d^{*} = max_{α, β : α_{i} \geq 0} min_{x} L (x, α, β) \leq min_{x} max_{α, β : α_{i} \geq 0} L (x, α, β) = p^{*}

推论1：如果 $d^{*} = p^{*}$ ，那么 $x^{*}, α^{*}, β^{*}$ 分别是原始问题和对偶问题的最优解。

通过对偶问题，来解决原始问题。

4 KKT条件

满足什么条件，才能使 $d^{*} = p^{*}$ 呢？

首先满足下面的大条件：

假设 $f (x)$ 和 $c_{i} (x)$ 都是凸函数， $h_{j} (x)$ 是仿射函数；假设不等式约束 $c_{i} (x)$ 是严格可行的。

定理2：则存在解， $x^{*}$ 是原始问题的最优解， $α^{*}, β^{*}$ 是对偶问题的最优解。并且：

d^{*} = p^{*} = L (x^{*}, α^{*}, β^{*})

KKT条件：则 $x^{*}$ 是原始问题、 $α^{*}, β^{*}$ 是对偶问题的最优解的充分必要条件是** $x^{*}, α^{*}, β^{*}$ 满足下面的KKT条件**：

\begin{aligned} 偏 导 为 0 条 件 \\ \nabla_{x} L (x^{*}, α^{*}, β^{*}) = 0 \\ \nabla_{α} L (x^{*}, α^{*}, β^{*}) = 0 \\ \nabla_{β} L (x^{*}, α^{*}, β^{*}) = 0 \\ 约 束 条 件 \\ c_{i} (x^{*}) \leq 0 \\ h_{j} (x^{*}) = 0 \\ α_{i}^{*} \geq 0 \\ K K T 对 偶 互 补 条 件 \\ α_{i}^{*} c_{i} (x^{*}) = 0 \end{aligned}

由KKT对偶互补条件可知，若 $α_{i}^{*} > 0$ ，则 $c_{i} (x^{*}) = 0$ 。SVM推导会用到。

若 $α_{i} > 0$ ， 则对应的 $x_{i}$ 是支持向量，有 $y_{i} (w^{*} \cdot x + b^{*}) = 1$ 。所有的非支持向量，都有 $α_{i} = 0$ 。

原始问题到对偶问题

先前的目标函数：

J = max_{w, b} \frac{1}{∥ w ∥}, s . t, y_{i} (w^{T} x_{i} + b) \geq 1

最大变为最小，则有原始问题如下。目标函数是二次的，约束条件是线性的。所以是个凸二次规划问题。

J = min_{w, b} \frac{1}{2} ∥ w ∥^{2}, s . t, y_{i} (w^{T} x_{i} + b) \geq 1

构造拉格朗日函数 ：

L (w, b, λ) = \frac{1}{2} ∥ w ∥^{2} - \sum_{i = 1}^{n} α_{i} (y_{i} (w^{T} x_{i} + b) - 1)

原始问题

θ_{p} (w, b) = max_{λ_{i} \geq 0} L (w, b, α)

p^{*} = min_{w, b} θ_{p} (w, b) = min_{w, b} max_{λ_{i} \geq 0} L (w, b, α)

对偶问题

θ_{d} (α) = min_{w, b} L (w, b, α)

d^{*} = max_{α_{i} \geq 0} θ_{d} (α) = max_{α_{i} \geq 0} min_{w, b} L (w, b, α)

我们知道 $d^{*} \leq p^{*} $ ，有时相等。原始问题可以转化为对偶问题求解，好处是：近似解，好求解。

求解对偶问题

拉格朗日函数：

L (w, b, λ) = \frac{1}{2} ∥ w ∥^{2} - \sum_{i = 1}^{n} α_{i} (y_{i} (w^{T} x_{i} + b) - 1)

化简后：

L (w, b, λ) = \frac{1}{2} ∥ w ∥^{2} - \sum_{i = 1}^{n} α_{i} y_{i} w^{T} x_{i} - \sum_{i = 1}^{n} α_{i} y_{i} b + \sum_{i = 1}^{n} α_{i}

目标函数：

d^{*} = max_{α_{i} \geq 0} θ_{d} (α) = max_{α_{i} \geq 0} min_{w, b} L (w, b, α)

主要是三个步骤：

固定参数 $α$ ，求极小化 $min_{w, b} L (w, b, α)$ 的w和b
带入w和b，对 $L$ 求参数 $α$ 的极大化
利用SMO算法求解对偶问题中的拉格朗日乘子 $α$

**1 极小求出w和b $min_{w, b} L (w, b, α)$ **

对w和b求偏导，使其等于0。

\frac{\partial L}{\partial w} = w - \sum_{i = 1}^{n} α_{i} y_{i} x_{i} \overset{令}{=} 0 \to w = \sum_{i = 1}^{n} α_{i} y_{i} x_{i}

\frac{\partial L}{\partial b} = - \sum_{i = 1}^{n} α_{i} y_{i} \overset{令}{=} 0 \to \sum_{i = 1}^{n} α_{i} y_{i} = 0

特别地范式求导： $\frac{\partial ∥ w ∥^{2}}{\partial w} = 2 w $

\frac{\partial ∥ w ∥^{2}}{\partial w} = w

把上面两个结论，带入原式进行化简，得到：

\begin{aligned} L (w, b, α) & = \frac{1}{2} w^{T} w - \sum_{i = 1}^{n} α_{i} y_{i} w^{T} x_{i} - \sum_{i = 1}^{n} α_{i} y_{i} b + \sum_{i = 1}^{n} α_{i} \\ = \frac{1}{2} w^{T} \sum_{i = 1}^{n} α_{i} y_{i} x_{i} - w^{T} \sum_{i = 1}^{n} α_{i} y_{i} x_{i} - b \sum_{i = 1}^{n} α_{i} y_{i} + \sum_{i = 1}^{n} α_{i} (带入w，提出b，带入0) \\ = - \frac{1}{2} {(\sum_{i = 1}^{n} α_{i} y_{i} x_{i})}^{T} (\sum_{i = 1}^{n} α_{i} y_{i} x_{i}) + \sum_{i = 1}^{n} α_{i} (只 有 x 是 向 量 ， 直 接 转 置) \\ = - \frac{1}{2} (\sum_{i = 1}^{n} α_{i} y_{i} x_{i}^{T}) (\sum_{i = 1}^{n} α_{i} y_{i} x_{i}) + \sum_{i = 1}^{n} α_{i} \\ = \sum_{i = 1}^{n} α_{i} - \frac{1}{2} \sum_{i = 1}^{n} \sum_{i = 1}^{n} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j} \end{aligned}

得到只用 $α$ 表示的拉格朗日函数：

L (w, b, α) = \sum_{i = 1}^{n} α_{i} - \frac{1}{2} \sum_{i = 1}^{n} \sum_{i = 1}^{n} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j}

2 求出对 $α $ 的极大 $max_{α_{i} \geq 0} θ_{d} (α) = max_{α_{i} \geq 0} min_{w, b} L (w, b, α) $

对偶问题 如下：

目标函数：

max_{α} \sum_{i = 1}^{n} α_{i} - \frac{1}{2} \sum_{i = 1}^{n} \sum_{i = 1}^{n} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j}

约束条件：

\begin{aligned} α_{i} \geq 0 \\ \sum_{i = 1}^{n} α_{i} y_{i} = 0 \end{aligned}

利用SMO算法求出拉格朗日乘子 $α^{*}$ 。

3 求出w和b，得到分离超平面和决策函数

根据前面的公式得到** $w^{*}$ **：

w * = \sum_{i = 1}^{n} α_{i}^{*} y_{i} x_{i}

选一个** $α_{j}^{*} > 0$ 对应的点** $(x_{j}, y_{j})$ 就是支持向量。由于支持向量** $y_{j} (w^{*} \cdot x + b^{*}) - 1 = 0$ ** ， $y_{j}^{2} = 1$

得到** $b^{*}$ ** ：

b^{*} = y_{j} - \sum_{i = 1}^{n} α_{i}^{*} y_{i} (x_{i} \cdot x_{j}), (x_{i} \cdot x_{j} 是向量内积，后面同理)

通过公式可以看出，决定w和b的是支持向量，其它点对超平面是没有影响的。

分离超平面

f (x) = \sum_{i = 1}^{n} α_{i}^{*} y_{i} (x_{i} \cdot x) + b^{*} = 0

分类决策函数

f (x) = s i g n (\sum_{i = 1}^{n} α_{i}^{*} y_{i} (x_{i} \cdot x) + b^{*})

简单总结

目标函数

J = min_{w, b} \frac{1}{2} ∥ w ∥^{2}, s . t, y_{i} (w^{T} x_{i} + b) \geq 1

拉格朗日函数

L (w, b, λ) = \frac{1}{2} ∥ w ∥^{2} - \sum_{i = 1}^{n} α_{i} (y_{i} (w^{T} x_{i} + b) - 1)

转化为对偶问题求解，需要会求解过程、会推导公式。

max_{α_{i} \geq 0} min_{w, b} L (w, b, α)

主要是下面4个求解步骤：十分重要!!!

固定 $α$ ， L对w和b求偏导，得到两个等式
结果带入L，消去w和b，得到只有 $α$ 的L
利用SMO求出 $α^{*}$
利用 $α^{*}$ 和支持向量，算出w和b。得出分离超平面和分界函数。

求导后消去w和b，得到L

L (w, b, α) = \sum_{i = 1}^{n} α_{i} - \frac{1}{2} \sum_{i = 1}^{n} \sum_{i = 1}^{n} α_{i} α_{j} y_{i} y_{j} x_{i}^{T} x_{j}

利用SMO求得 $α^{*}$ 后，带回原式，得到w和b：

w * = \sum_{i = 1}^{n} α_{i}^{*} y_{i} x_{i}, b^{*} = y_{j} - \sum_{i = 1}^{n} α_{i}^{*} y_{i} (x_{i} \cdot x_{j}),

实际上最重要是向量内积来进行决策

f (x) = s i g n (\sum_{i = 1}^{n} α_{i}^{*} y_{i} (x_{i} \cdot x) + b^{*})

目标函数

max_{α_{i} \geq 0} L (w, b, λ) = max_{α_{i} \geq 0} \frac{1}{2} ∥ w ∥^{2} - \sum_{i = 1}^{n} α_{i} (y_{i} (w^{T} x_{i} + b) - 1)

两种数据点

支持向量：红色为0， $α_{i} > 0$ 。后面为0。
其它点：红色大于1， $α_{i} = 0$ 。后面为0。

非线性SVM

核函数

问题

大部分数据不是线性可分的，前面的超平面根本不存在。可以用一个超曲面进行分离，这就是非线性可分问题。

SVM可以通过核函数把输入映射到高维特征空间，最终在高维特征空间中构造最优分离超平面。

需要映射和学习线性SVM：

把输入映射到特征空间F
在特征空间F中使用线性学习器分类

f (x) = \sum_{i = 1}^{n} α_{i}^{*} y_{i} (ϕ (x_{i}) \cdot ϕ (x)) + b^{*}

核函数的功能

核函数在特征空间中直接计算内积，就像在原始输入点的函数中一样，两个步骤合二为一：

K (x, z) = ϕ (x) \cdot ϕ (z)

分类函数：

f (x) = \sum_{i = 1}^{n} α_{i}^{*} y_{i} k (x_{i}, x) + b^{*}

对偶问题：

\begin{aligned} max_{α} \sum_{i = 1}^{n} α_{i} - \frac{1}{2} \sum_{i = 1}^{n} \sum_{i = 1}^{n} α_{i} α_{j} y_{i} y_{j} k (x_{i}, x) \\ s . t, α_{i} \geq 0, \sum_{i = 1}^{n} α_{i} y_{i} = 0 \end{aligned}

核函数处理非线性数据

简单例子

上面的数据线性不可分，两个维度(a, b)。应该用二次曲线(特殊圆)来区分：

w_{1} a + w_{2} a^{2} + w_{3} b + w_{4} b^{2} + w_{5} a b + b = 0

看做映射到了五维空间：

w_{1} z_{1} + w_{2} z_{2} + w_{3} z_{3} + w_{4} z_{4} + w_{5} z_{5} + b = \sum_{i = 1}^{5} w_{i} z_{i} + b = 0

如下图：（实际映射到了三维空间的图），可以使用一个平面来分开：

问题

五维是由1维和2维进行组合，就可以解决问题。所以对输入数据无脑组合映射到高维可以吗？当然是不可以的。维数太高，根本没法计算，不能无脑组合映射。

核函数的功能

看核函数：

k (x_{1}, x_{2}) = (x_{1} \cdot x_{2} + 1)^{2}

核函数和上面映射空间的结果是一样的！区别：

映射计算：先映射到高维空间，然后根据内积进行计算
核函数：直接在原来的低维空间中计算，而不需显示写出映射后的结果。避开了在高维空间中的计算！

常用核函数

1 线性核

k (x_{1}, x_{2}) = x_{1} \cdot x_{2} (原始空间的内积)

目的：映射前和映射后，形式上统一了起来。写个通用模板，再带入不同的核就可以了。

2 高斯核

k (x_{1}, x_{2}) = \exp (- \frac{∥ x_{1} - x_{2} ∥^{2}}{2 σ^{2}})

高斯核函数，非常灵活，应用很广泛。可以映射到无穷维。

$σ$ 的选择

太大：权重衰减快，相当于映射到低维子空间
太小：将任意数据线性可分，容易陷入严重过拟合

3 多项式核

k (x_{1}, x_{2}) = ((x_{1}, x_{2}) + R)^{d}

核函数总结

问题的出现

数据线性不可分，要映射到高维空间中去
不能无脑低维组合映射到高维空间，维度太大根本没法计算

核函数的功能

将特征向由低维向高维的转换
直接在低位空间中进行计算
实际的分类效果却是在高维上
避免了直接在高维空间中的复杂计算

SVM曲线，逻辑回归和决策树是直线。SVM的效果好。

松弛变量软间隔最大化

定义

数据可能有一些噪声特异点outlier导致不是线性可分或者效果不好。如果不处理outlier，则会非常影响SVM。因为本身支持向量就只有几个。

给每个数据点加上松弛变量 $ξ_{i} \geq 0$ ，使函数间隔+松弛变量大于等于1，即约束条件：

y_{i} (w \cdot x_{i} + b) \geq 1 - ξ_{i}, ξ_{i} \geq 0

为每个松弛变量 $ξ_{i}$ 支付一个代价 $ξ_{i}$ ，新的目标函数和约束条件如下：

min \frac{1}{2} ∥ w ∥^{2} + C \sum_{i = 1}^{n} ξ_{i}

s . t, y_{i} (w \cdot x_{i} + b) \geq 1 - ξ_{i}, ξ_{i} \geq 0

惩罚系数C是一个常数

C大时，对误分类的惩罚增大
C来调节权衡：使间隔尽量大；误分类点个数尽量少

求解

定义新的拉格朗日函数：

L (w, b, ξ, α, r) = \frac{1}{2} ∥ w ∥^{2} + C \sum_{i = 1}^{n} ξ_{i} - \sum_{i = 1}^{n} α_{i} (y_{i} (w^{T} x_{i} + b) - 1 + ξ_{i}) - \sum_{i = 1}^{n} r_{i} ξ_{i}

和前面对偶问题求解一样，求导求解：

\frac{\partial L}{\partial w} = 0 \to w = \sum_{i = 1}^{n} α_{i} y_{i} x_{i}

\frac{\partial L}{\partial b} = 0 \to \sum_{i = 1}^{n} α_{i} y_{i} = 0

\frac{\partial L}{\partial ξ} = 0 \to C - α_{i} - r_{i} = 0

带入，得到新的L

max_{α} L = \sum_{i = 1}^{n} α_{i} - \frac{1}{2} \sum_{i = 1}^{n} \sum_{i = 1}^{n} α_{i} α_{j} y_{i} y_{j} (x_{i} \cdot x_{j})

约束条件：

0 \leq α_{i} \leq C, \sum_{i = 1}^{n} α_{i} y_{i} = 0

SVM的深层理解

感知机算法

感知机算法是一个二类分类的线性模型，也是找一个超平面进行划分数据：

f (x) = s i g n (w \cdot x + b)

损失函数是所有误分类点到超平面的总距离：

min_{w, b} L (w, b) = - \sum_{x_{i} \in M} y_{i} (w \cdot x_{i} + b)

可以使用SGD对损失函数进行优化。

当训练数据集线性可分时，感知机算法是收敛的。可以在一定迭代次数上，找到一个超平面，有很多个解。

感知机的超平面不是最优效果，最优是SVM。

损失函数

数据 $x$ ，预测值 $f (x) = \hat{y}$ ，真实值 $y$ 。

常见损失

01损失

L (y, \hat{y}) = {\begin{cases} 1, & y \neq \hat{y} \\ 0, & y = \hat{y} \end{cases}

平方损失
$L (y, \hat{y}) = (y - \hat{y})^{2}$
绝对损失
$L (y, \hat{y}) = | y - \hat{y} |$
对数损失
$L (y, \hat{y}) = - \log P (y \hat{x})$

期望损失

期望损失也称为风险函数，需要知道联合概率分布 $P (X, Y)$ ，一般不知道。

R_{e x p} = E_{p} [L (y, \hat{y})] = \int_{(x, y)} L (y, \hat{y}) P (x, y) d x d y

经验损失

经验损失也成为经验风险 ，所以监督学习就是要经验风险最小化。

R_{e m p} (f) = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, {\hat{y}}_{i})

结构风险最小化

样本数量太小时，容易过拟合。需要加上正则化项，也称为惩罚项。模型越复杂，越大。

R_{s r m} (f) = \frac{1}{N} \sum_{i = 1}^{N} L (y_{i}, {\hat{y}}_{i}) + λ J (f)

$λ \geq 0$ 是系数，权衡经验风险和模型复杂度。监督学习，就是要使结构风险最小化。

SVM也是最优化+损失最小。可以从损失函数和优化算法角度去看SVM、boosting、LR，可能会有不同的收获。

SVM的合页损失函数

从最优化+损失最小的角度去理解SVM。

最小二乘法

最小二乘法，就是通过最小化误差的平方来进行数学优化。对参数进行求偏导，进行求解。

SMO

模型

min \frac{1}{2} ∥ w ∥^{2} + C \sum_{i = 1}^{n} ξ_{i}

s . t, y_{i} (w \cdot x_{i} + b) \geq 1 - ξ_{i}, ξ_{i} \geq 0

序列最小最优化SMO (Sequential minimal optimization)，解决求解 $α$ 的问题：

min_{α} L = \frac{1}{2} \sum_{i = 1}^{n} \sum_{i = 1}^{n} α_{i} α_{j} y_{i} y_{j} K (x_{i}, x_{j}) - \sum_{i = 1}^{n} α_{i}

s . t, 0 \leq α_{i} \leq C, \sum_{i = 1}^{n} α_{i} y_{i} = 0

如果所有变量的解都满足KKT条件，则最优化问题的解已经得到。

思想

每次抽取两个乘子 $α_{1}, α_{2}$ ，然后固定其他乘子，针对这两个变量构建一个子二次规划问题，进行求解。不断迭代求解子问题，最终解得原问题。

选择乘子

$α_{1}$ 选择违反KKT条件最严重的， $α_{2}$ 选择让 $α_{1}$ 变化最大的。

SVM笔记

SVM概览 ​

线性分类器 ​

函数间隔与几何间隔 ​

最大间隔分类器 ​

线性SVM ​

拉格朗日对偶性 ​

原始问题到对偶问题 ​

求解对偶问题 ​

简单总结 ​

非线性SVM ​

核函数 ​

核函数处理非线性数据 ​

常用核函数 ​

核函数总结 ​

松弛变量软间隔最大化 ​

定义 ​

求解 ​

SVM的深层理解 ​

感知机算法 ​

损失函数 ​

SVM的合页损失函数 ​

最小二乘法 ​

SMO ​

SVM概览

线性分类器

函数间隔与几何间隔

最大间隔分类器

线性SVM

拉格朗日对偶性

原始问题到对偶问题

求解对偶问题

简单总结

非线性SVM

核函数

核函数处理非线性数据

常用核函数

核函数总结

松弛变量软间隔最大化

定义

求解

SVM的深层理解

感知机算法

损失函数

SVM的合页损失函数

最小二乘法

SMO