天才一秒记住【畅想小说网】地址:http://www.cxtra.net
利用训练数据构建一个模型,这个模型可以在给出特征属性取值而没有给出类别标记的情况下,自动得到相应样本的类别标记,从而实现分类的目的。
表3-1
表3-1是某电商平台的用户数据,一共有10条。
其中有3个特征属性,分别为消费频率(消费次数注册天数)、平均消费金额(总消费金额消费次数)以及是否接收广告。
表格最后一列为类别标记,即客户包括优质客户和非优质客户两类。
每一行数据都是一个样本,这10个样本构成了用来训练分类模型的训练数据。
表3-1中,特征属性的取值都是用文字来描述的。
例如,第1条数据的消费频率取值是“低”
。
这与我们熟悉的数据也许有些不同,但要习惯这种数据形式,并非只有数字才是数据。
使用这个示例数据进行分类指的就是根据上述训练数据训练分类模型,从而可以根据特征属性的取值对未知类别的客户进行鉴别,把他们分成优质和非优质两类。
一般分类问题的类别数量各有不同,分成两类的问题称为二分类问题,类别数量更多的问题称为多分类问题,但二分类问题的算法是多分类问题算法的基础。
分类方法有很多种,也许复杂,也许简单,但是哪一种方法更适用于特定问题?如何评价各种分类方法的好坏?例如,使用上表中的数据可以建立如下所示的一个非常简单的分类模型。
如果消费频率=高
则客户类别=优质
如果消费频率=中或者低
则客户类别=非优质
即使通过直观经验来判断,也知道这个模型非常粗糙,并不是一个好的分类模型。
那么如何通过量化的方式对模型进行评价呢?下面介绍几种分类模型的评价指标。
对于二分类问题,为了给出评价指标的严格定义,首先要根据评价结果建立如表3-2所示的表格,这个表格称为混淆矩阵。
表3-2混淆矩阵
表格中各记号的含义是这样的。
把二分类的两个类别分别记为正(positive)和反(ive),分类模型的预测结果也有两种,即对(True)和错(False)。
类别和预测结果有以下四种组合方式。
真正例(TP,TruePositives):正类样本(称为正例)被正确预测为正例;
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!