12.损失函数
约 384 字大约 1 分钟
2025-09-20
常见损失函数 - 距离标准
- 平方损失函数:
L(y,y^)=21(y−y^)2
- 绝对损失函数:
L(y,y^)=∣y−y^∣
熵的标准
- 对数损失函数
L(w)=−m1i=1∑m{yilog(g(wT⋅xi))+(1−yi)log(1−g(wT⋅xi))}
g为sigmoid激活函数,m为样本数
- 交叉熵损失函数(多用于多分类问题) 一般使用
softmax函数替代.
L(w)=−m1i=1∑mj=1∑npijlog(qij)
什么是熵
熵是信息论中一个重要概念,它表示随机变量的不确定性。
信息熵:$$H=-\sum_{i=1}^n p_i \log_2 p_i$$
相对熵(KL散度)
用于衡量两个概率分布的相似性
DKL(p∣∣q)=i=1∑npilog2qipi
- 交叉熵(交叉熵损失函数)
L(p,q)=−i=1∑npilog2qi
相互关系:$$ \begin{aligned} D_{KL}(p||q) &= \sum_{i=1}^n p(x_i)\log_2 \frac{p(x_i)}{q(x_i)} \ &= \sum_{i=1}^n p(x_i)\log_2 p(x_i) - \sum_{i=1}^n p(x_i)\log_2 q(x_i) \ &= L(p,q) - H(p) \end{aligned}$$

经验风险最小化原则
w∗=argwminN1i=1∑NL(yi,f(xi,w))+λR(w)
其中L(yi,f(xi,w))是损失函数,f(xi,w)是模型输出,yi是样本标签,λ是正则化参数,R(w)是正则化项。
