畅想小说网

第三节 k平均聚类(第2页)

天才一秒记住【畅想小说网】地址:http://www.cxtra.net

不妨选p1=(3,4)和p2=(7,5),即图中红色的两个点。

k-平均算法的第一步就完成了。

接下来进行第二步,计算每个点到初始化种子的距离,并把它归入距离最近的中心所属的簇。

计算结果如表5-1所示。

表5-1

第一次迭代完成后的聚类结果如图5-3所示。

图5-3

接下来重复第二、三步开始第二次迭代。

各点到中心的距离如表5-2所示,第二次聚类的结果如图5-4所示。

表5-2

图5-4

通过上面的例子可以看到,k-平均算法简单快速,也能取得较好的聚类效果。

但这种方法也有一些缺点。

首先,必须事先给定要生成的簇的数量,而且对不同的初始化种子,可能会导致不同的聚类结果。

为了减少初始化种子带来的干扰,可以尝试选取不同的初始化种子进行多次聚类,从中挑选最优结果作为最终的聚类结果。

其次,这种聚类方法对孤立点是敏感的。

所谓孤立点就是和其他任何点都没有太高的相似性的元素。

这样的点会极大地干扰聚类的结果。

为了解决孤立点带来的问题,可以尝试其他基于k-平均改进的算法,如k-prototype算法和k-中心点算法。

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

如遇章节错误,请点击报错(无需登陆)

新书推荐

星门精灵掌门人麻衣道祖修仙:从就职德鲁伊开始商途灵境行者农家弃女三国之单身狗怒开无双校园重生之特工归来我家太子妃超凶的躲在冷宫苟成大佬朱雀记异界最强赘婿惊悚乐园玄浑道章神算小奶团驾到神秀之主龙抬头逍遥梦路开局从召唤诸天崛起天神诀我的姐夫是太子长生三千年猎人:我真不是除念师神医毒妃不好惹