第三节 k平均聚类（第1页）

天才一秒记住【畅想小说网】地址：http://www.cxtra.net

第三节k-平均聚类

banner"

这一节讲述最简单也很常用的一种聚类算法——k-平均算法。

该算法的流程非常简单，其实就是不停地尝试对集合进行划分，直至找到符合条件的划分方式。

可以简单描述如下。

第一步，确定簇的个数k，并为每个簇的中心（称为中心向量）初始化k个种子c1，c2，…，ck。

第二步，将每个元素分配给距离其最近的中心向量，生成k个簇。

第三步，重新计算每个簇的中心，并以计算结果作为每个簇新的中心向量。

第四步，重复上述第二、三步，直至算法收敛（中心不再变化或满足特定的收敛条件）。

其中在第一步，初始化种子有多种方法，一种简单的处理方法是随机地挑选k个元素作为初始化种子。

在第四步，如果进一步迭代后，每个簇的中心不再发生变化，自然可以认为算法收敛，但这并不总是可以实现的。

另一种判断收敛的方法是使用簇中所有元素与中心的均方差，当均方差小于给定的阈值后即停止迭代。

均方差是指簇中每个元素与中心距离的平方和，即

为了更好地理解k-均值聚类的过程，下面通过一个简单的例子进行说明。

给定10个平面上的点，通过k-平均算法聚成两类。

这10个点的坐标分别是（3，4），（3，6），（3，8），（4，5），（4，7），（5，1），（5，5），（7，3），（7，5），（8，5），在平面上如图5-2所示。

图5-2

因为确定是聚成两类，所以要选取两个点作为初始化的聚类中心。

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！