天才一秒记住【畅想小说网】地址:http://www.cxtra.net
不妨选p1=(3,4)和p2=(7,5),即图中红色的两个点。
k-平均算法的第一步就完成了。
接下来进行第二步,计算每个点到初始化种子的距离,并把它归入距离最近的中心所属的簇。
计算结果如表5-1所示。
表5-1
第一次迭代完成后的聚类结果如图5-3所示。
图5-3
接下来重复第二、三步开始第二次迭代。
各点到中心的距离如表5-2所示,第二次聚类的结果如图5-4所示。
表5-2
图5-4
通过上面的例子可以看到,k-平均算法简单快速,也能取得较好的聚类效果。
但这种方法也有一些缺点。
首先,必须事先给定要生成的簇的数量,而且对不同的初始化种子,可能会导致不同的聚类结果。
为了减少初始化种子带来的干扰,可以尝试选取不同的初始化种子进行多次聚类,从中挑选最优结果作为最终的聚类结果。
其次,这种聚类方法对孤立点是敏感的。
所谓孤立点就是和其他任何点都没有太高的相似性的元素。
这样的点会极大地干扰聚类的结果。
为了解决孤立点带来的问题,可以尝试其他基于k-平均改进的算法,如k-prototype算法和k-中心点算法。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!