畅想小说网

第一节 分类问题及其评价(第4页)

天才一秒记住【畅想小说网】地址:http://www.cxtra.net

(6)假负率

假负率表示被错误预测为负例的样本(实际为正例)占所有正例的比例。

假负率越高,性能越差。

显然它等于1-TPR,即:

评价一个分类器的好坏,除了上述指标,还需要考虑算法收敛的速度、使用分类器进行预测的速度、对于数据异常的鲁棒性、分类器的扩展性、分类结果的可解释性等,还可以使用TPR和FPR分别作x轴和y轴的坐标绘出ROC曲线再进行评价,这里不再一一介绍。

在这些评价指标中,正确率当然是很常用、很有效的评价指标,但其他指标在不同问题中同样可以起到重要的评价作用。

当两个类别中正负样本数量差距悬殊时,仅使用正确率进行评价就是很糟糕的选择。

例如,使用监测数据进行地震预报,发生地震为正,没发生地震为负。

假设在所有监测数据中,发生地震的情况只占1%。

如果有一个分类器,使用任意数据进行预测时,都会预测为不发生地震(即所有数据都判定为负例),它的准确率是99%,分类准确率很高,但是这样的模型显然性能非常糟糕,造成的后果也是非常严重的。

对于这种正样本很少出现的情况,同时采用精度和灵敏度进行评价会更有效。

还有一点需要说明,一个分类器通常不能使各个评价指标都达到最优,甚至某些指标是互相冲突的,一个变好,而另一个一定会变差。

所以需要在各个指标之间进行平衡,并且根据具体问题确定哪些指标更重要,而在设计算法时优先考虑重要的指标。

例如,在上述地震预报问题中,精度和灵敏度显然更重要。

在设计分类算法时,对训练数据的处理和评价指标的选取是个复杂的问题,读者可通过实践逐渐掌握其中的技巧。

本节最后,针对客户分类的简单模型计算这些评价指标,以便读者熟悉其计算方式。

首先建立该模型对应的混淆矩阵,以优质客户为正,非优质为负,如表3-3所示。

表3-3

举例说明一下上述混淆矩阵的具体计算方法。

例如,假负例(FN),即判断为非优质,但是其实为优质客户的数量。

按照前述模型的分类方式,因为第2,4,6条数据的消费频率不高,所以都会被判断为非优质客户,但是它们其实都属于优质客户,所以FN=3。

其他的计算是类似的,请读者自行验证。

有了混淆矩阵,各个指标的计算就很容易了。

从评价结果看,虽然这个模型还不够准确,但是也超过了随机指定分类的正确率(50%),它的精度甚至达到了100%。

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

如遇章节错误,请点击报错(无需登陆)

新书推荐

重生八八从木匠开始怪谈作者拖更日记这个修士很危险江山美人志从呆毛王开始公开处刑大道朝天洪荒:我,龙族老祖,绝不出关!英雄联盟之灾变时代我家可能有位大佬我家世显赫,躺平不过分吧!猎人:我真不是除念师万道成神藏锋皇兄万岁崇祯大明:从煤山开始齐天大圣之无限吞噬暗夜通灵王妃每天都想和离反贼平天下官途,搭上女领导之后!老中医的美满生活我家老婆可能是圣女直播写纯爱文的我在虫族封神傲世九重天掌门人不高兴