33.支持向量机
约 741 字大约 2 分钟
2025-09-20
一个空间的混乱其实是另一个空间的秩序。 (升维操作)
找到一个线性可分的直线,数据离得越远越好,做到不偏不倚,公平!
能够解决非线性的问题:核技巧
其中一个关键的就是核函数
SVM和逻辑回归的区别:
| 分类标准 | 核心思想 | 最优化目标 | 泛化能力 | |
|---|---|---|---|---|
| 线性模型 | 决策边界 | 民主投票 | 点到直线距离和 | 一般 |
| SVM | 超平面 | 民主集中 | margin | 提升 |
硬间隔SVM
它首先假定数据线性可分。

首先最大化间隔,那么我们就要最大化d的和。 这里的d应为点到直线的垂直距离。
注意:这里和线性模型距离计算不同,线性模型计算的是竖直距离(y−y^),即斜边,我们这个是直角边。
数学描述
这个超平面我们用:wTx+b=0表示。
d=∥w∥wTx+b
那么标签标记为:
{∥w∥wTx+b≥d,y=1∥w∥wTx+b<−d,y=−1
进一步转化:
{∥w∥dwTx+b≥1,y=1∥w∥dwTx+b<−1,y=−1
然后把w′T=∥w∥dwT,b′=∥w∥db代入,得到:
{w′x+b′≥1,y=1w′x+b′≤−1,y=−1
分段函数看起来有点难受。我们可以用一个不等式表示:$$y(w'x+b')\geq 1$$
此时d=∥w∥∣wTx+b∣,即$$d=\frac{1}{|w|}$$ 想要距离最大化,就相当于||w||需要最小。 但是∥w∥因为是范数带根号,所以搞一个平方,为了方便求导,前面加一个21。 所以目标函数变成: 21∥w∥2
即找到$$\min \frac{1}{2}||w||^2, s.t. y(w^T x + b) \geq 1, \forall x \in X$$

但是硬间隔SVM依赖的是中间的数据,但是如果中间的数据出现了异常值,容易对结果造成严重影响。
所以我们需要建立容错机制从而进一步提升泛化能力。
软间隔
我们可以稍微放宽一下约束限制,要求绝大部分能够满足,少部分就算了。
通过数学公式表示:
min21∥w∥2s.t.yi(wTxi+b)≥1−ξi,ξi≥0
其中ξi为很小的正数,使得要求不是那么严格,再次化为数学公式:
min21∥w∥2+Ci=1∑nξis.t.yi(wTxi+b)≥1−ξi,ξi≥0
其中C∑i=1nξi为惩罚项,用来控制误分类的程度。(L1正则项)
当然我们也有类似L2正则项的形式:C∑i=1nξi2。
不等式要先转化为等式,然后再用拉格朗日乘子法求解。
