机器学习中偏差、方差的理解
日期: 2017-08-19 分类: 个人收藏 406次阅读
1.前言
在机器学习中经常遇到,model的“过拟合”以及“欠拟合”问题,怎样判断呢,这里可能就需要根据偏差-方差-错误曲线来判别。因此这里我们需要对方差、偏差有一个直观感性的认识。
2.方差-偏差
2.1偏差
当模型做出与实际情况不符的假设时就会引起错误,这种错误称为偏差。如果选择的模型与预测变量和因变量之间的关系差别太大时(通常是模型太简单),就会发生偏差。
2.2方差
描述的是预测值的变化范围,离散程度,也就是离其期望值的距离。方差越大,数据的分布越分散。
2.3 方差偏差的具体分析
图形分析:从上下图中分析可以看到,偏差越大,离中心点越远,偏差越小,距离中心点越近。从左右方向来分析,方差越小,数据点越集中,方差越大,数据点越离散。
2.4 方差偏差数学公式表示
首先定义D为训练集数据集合,f(x;D)为训练集D上学得的模型f在x上的输出。期望预测为
f(x)¯¯¯¯¯¯=ED[f(x;D)]
使用不同的样本数相同的不同训练集产生的方差为
var(x)=ED[(f(x;D)−f(x)¯¯¯¯¯¯)2]
期望输出与真实标记之间的差为偏差
bias2=(f(x)¯¯¯¯¯¯−y)2
2.5 偏差方差的作用
偏差度量了学习算法的期望预测与真实结果的偏离程度,刻画描述了算法本身对数据的拟合能力,也就是训练数据的样本与训练出来的模型的匹配程度;方差度量了训练集的变化导致学习性能的变化,描述了数据扰动造成的影响;
偏差方差在机器学习中应用
一般来说偏差和方差有冲突称之为偏差-方差窘境。在给定学习任务下,在训练不足时,学习器的拟合能力较弱,,训练数据的扰动不足以使学习器产生明显变化,此时偏差起到最要的作用,随着学习器拟合能力的加强,偏差越来越小,但是任何一点数据抖动都可以被学习,方差逐渐占据主导,若训练数据自身的非全局的特性被学习到了,那么久发生了过拟合。
除特别声明,本站所有文章均为原创,如需转载请以超级链接形式注明出处:SmartCat's Blog
精华推荐
