天才一秒记住【畅想小说网】地址:http://www.cxtra.net
第一节聚类方法概述
banner"
>
聚类与分类是人工智能领域中的两个经典问题。
简单地说,分类算法是通过训练集进行学习,从而具备把未知数据划分到已知类别中的能力,这种通过训练数据进行学习的方法被称为监督学习(supervisedlearning)。
作为一种监督学习方法,分类算法要求必须事先明确类别信息,并且所有待分类的数据都有一个已知类别与之对应。
聚类算法不需要通过具有类别标记的训练数据进行学习,是一种无监督学习(unsupervisedlearning)的方法,它借助算法把数据对象划分成几个不同的子集,每个子集称为一个簇(cluster)。
划分的原则是使得同一簇中的对象彼此相似,而与其他簇中对象的差异尽量大。
虽然分类与聚类最终都是把待处理的对象分成几类,但是它们适用的问题、处理的方法以及对处理结果的解读都是不同的。
首先分类问题的类别是事先确定的,而聚类事先并不知道处理对象的类别,而是根据它们内在的特性进行划分。
例如,关注的对象是某个人群,一个典型的分类算法是根据人群的身高、体重等生物测量数据把他们划分成青少年、中年、老年三个类别。
而聚类是根据这些生物测量数据按照某种相似度把人群分成几类。
最终也许划分成了青少年、中年、老年三个类别,也有可能根据性别划分成男性、女性两个类别,还有可能根据其他标准划分成另外的几个类别。
这在聚类完成前是未知的,并且需要对聚类结果进行解读。
所以分类算法适用于类别或分类体系已经确定的问题,而聚类算法适用于不存在特定的分类体系的问题,聚类是一种探索式的学习方法。
聚类方法在很多领域都有应用,如商务智能、图像识别、网页搜索、生物学等。
可供选择的聚类方法有很多种,应根据具体任务和算法的特点进行选择,并没有哪一种方法是适用于所有问题的。
因为方法众多、特点不同,很难对聚类方法给出非常明确的分类,所以下面对常见的聚类方法给出一个不是非常严格的划分。
1.基于划分的聚类方法
对包含n个元素的集合,依据某种原则把集合划分为k个分区,每个分区代表一个簇,其中k≤n。
这类方法多数是使用某种距离进行划分的,使得同一簇中的元素尽量“接近”
,而不同簇中的元素尽量“远离”
。
为了达到划分的全局最优,可能需要穷举所有可能的划分。
这样的计算量在大数据量时常常是无法被接受的,所以实际上多数基于划分的聚类方法都是启发式的,通过迭代逐渐提高聚类的质量。
在第三节将会介绍的k-平均算法就是这类方法的代表。
2.基于层次的聚类方法
根据层次聚类的方向,这类方法可以分为自下而上和自上而下两种形式。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!