Table Of Contents

Table Of Contents

1.9. 权重衰减¶

权重衰减等价于 L2 范数正则化（regularization）。正则化通过为模型损失函数添加惩罚项使学出的模型参数值较小，是应对过拟合的常用手段。我们先描述 L2 范数正则化，再解释它为何又称权重衰减。

1.9.1. 作用¶

作用：权重衰减（L2正则化）可以避免模型过拟合问题。

思考：L2正则化项有让w变小的效果，但是为什么w变小可以防止过拟合呢？

从模型的复杂度上解释：更小的权值w，从某种意义上说，表示网络的复杂度更低，对数据的拟合更好（这个法则也叫做奥卡姆剃刀），而在实际应用中，也验证了这一点，L2正则化的效果往往好于未经正则化的效果。
从数学方面的解释：过拟合的时候，拟合函数的系数往往非常大，为什么？如下图所示，过拟合，就是拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。而正则化是通过约束参数的范数使其不要太大，所以可以在一定程度上减少过拟合情况。

Table Of Contents

1.9. 权重衰减
- 1.9.1. 作用

1.10. 损失函数