畅想小说网

第二节 相似性的度量方式(第1页)

天才一秒记住【畅想小说网】地址:http://www.cxtra.net

第二节相似性的度量方式

banner"

>

考虑聚类问题时,如何度量元素之间以及簇之间的相似性是一个核心问题。

在不同类型的任务中,需要选择合适的度量方式。

一个直观的想法是通过某种距离来度量相似性,距离越近,相似性越高,之所以说“某种”

距离是因为距离可以用很多种方式来定义。

下面列出几种常用的距离的定义。

设C是一个集合,C1,C2,…,Ck是它的一些子集。

度量集合C中两个元素p1=(x11,x12,…,x1n)和p2=(x21,x22,…,x2n)之间的距离时,最常用的是欧式距离

这种距离直观易懂且可解释性强。

除了欧式距离,还有两种常用的度量方式,一种叫作曼哈顿(Manhattan)距离

一种叫作闵科夫斯基(Minkowski)距离

其中q是大于0的常数。

从定义可以看出,前两种距离其实是闵科夫斯基距离的特殊情形。

进一步,当元素的坐标在各个方向的重要性不同时,可以采用如下加权距离

来进行度量,其中ωk是介于0和1之间的常数,它表明了不同方向的坐标在元素属性中的重要程度。

还有一种距离叫作余弦距离,或者称为余弦相似性。

这种距离在图像识别、文本相似性等任务中很常用。

计算余弦距离时,把元素看成空间中的向量,使用余弦定理计算两个向量夹角的余弦,余弦值越大说明角度越小,则两个向量的相似性越高。

计算p1和p2余弦距离的公式是

其中表示内积,即

|p1|和|p2|表示它们的长度,例如

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

如遇章节错误,请点击报错(无需登陆)

新书推荐

重生八八从木匠开始怪谈作者拖更日记这个修士很危险江山美人志从呆毛王开始公开处刑大道朝天洪荒:我,龙族老祖,绝不出关!英雄联盟之灾变时代我家可能有位大佬我家世显赫,躺平不过分吧!猎人:我真不是除念师万道成神藏锋皇兄万岁崇祯大明:从煤山开始齐天大圣之无限吞噬暗夜通灵王妃每天都想和离反贼平天下官途,搭上女领导之后!老中医的美满生活我家老婆可能是圣女直播写纯爱文的我在虫族封神傲世九重天掌门人不高兴