本文共 583 字,大约阅读时间需要 1 分钟。
类别不平衡(class-imbalance)是指分类任务中不同类别的训练样例数差别很大的情况。例如有990个正类,10个反例,那么学习方法只需要返回一个永远预测为正类的分类器就可以达到99%的精度。然而这样的学习器是没有价值的,因为它预测不出任何反例。
样本比例不平衡,这种现象多是由于数据来源本身造成,如征信问题中往往正样本多。
即使原始问题中不同类别的训练样例数目相当,在使用OvR策略后产生的二分类任务仍可能出现类别不平衡现象。
解决方法 1 :再缩放(rescaling)
解决方法 2 :使用其他分类性能度量指标
解决方法 3 :基于代价函数的分类器就决策控制
解决方法 4 :搜集更多的数据
搜集更多的数据,从而让正负样本的比例平衡。需要注意的是,当搜集数据的场景本来产生数据的比例就是不平衡时,这种方法并不能解决数据比例不平衡问题。
或者采用合成样本。
《机器学习》 P66 3.6
《Machine Learning in Action》 P127 7.7
转载地址:http://anoji.baihongyu.com/