第一节分类问题及其评价（第4页）

天才一秒记住【畅想小说网】地址：http://www.cxtra.net

（6）假负率

假负率表示被错误预测为负例的样本（实际为正例）占所有正例的比例。

假负率越高，性能越差。

显然它等于1-TPR，即：

评价一个分类器的好坏，除了上述指标，还需要考虑算法收敛的速度、使用分类器进行预测的速度、对于数据异常的鲁棒性、分类器的扩展性、分类结果的可解释性等，还可以使用TPR和FPR分别作x轴和y轴的坐标绘出ROC曲线再进行评价，这里不再一一介绍。

在这些评价指标中，正确率当然是很常用、很有效的评价指标，但其他指标在不同问题中同样可以起到重要的评价作用。

当两个类别中正负样本数量差距悬殊时，仅使用正确率进行评价就是很糟糕的选择。

例如，使用监测数据进行地震预报，发生地震为正，没发生地震为负。

假设在所有监测数据中，发生地震的情况只占1%。

如果有一个分类器，使用任意数据进行预测时，都会预测为不发生地震（即所有数据都判定为负例），它的准确率是99%，分类准确率很高，但是这样的模型显然性能非常糟糕，造成的后果也是非常严重的。

对于这种正样本很少出现的情况，同时采用精度和灵敏度进行评价会更有效。

还有一点需要说明，一个分类器通常不能使各个评价指标都达到最优，甚至某些指标是互相冲突的，一个变好，而另一个一定会变差。

所以需要在各个指标之间进行平衡，并且根据具体问题确定哪些指标更重要，而在设计算法时优先考虑重要的指标。

例如，在上述地震预报问题中，精度和灵敏度显然更重要。

在设计分类算法时，对训练数据的处理和评价指标的选取是个复杂的问题，读者可通过实践逐渐掌握其中的技巧。

本节最后，针对客户分类的简单模型计算这些评价指标，以便读者熟悉其计算方式。

首先建立该模型对应的混淆矩阵，以优质客户为正，非优质为负，如表3-3所示。

表3-3

举例说明一下上述混淆矩阵的具体计算方法。

例如，假负例（FN），即判断为非优质，但是其实为优质客户的数量。

按照前述模型的分类方式，因为第2，4，6条数据的消费频率不高，所以都会被判断为非优质客户，但是它们其实都属于优质客户，所以FN=3。

其他的计算是类似的，请读者自行验证。

有了混淆矩阵，各个指标的计算就很容易了。

从评价结果看，虽然这个模型还不够准确，但是也超过了随机指定分类的正确率（50%），它的精度甚至达到了100%。

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！

第一节 分类问题及其评价（第4页）