畅想小说网

第二节 朴素贝叶斯分类算法(第3页)

天才一秒记住【畅想小说网】地址:http://www.cxtra.net

P(A1=-1|C1)=0.1,P(A1=0|C1)=0.5,P(A1=1|C1)=0.3

P(A2=0|C1)=0.3,P(A2=1|C1)=0.7

P(A1=-1|C2)=0.7,P(A1=0|C2)=0.2,P(A1=1|C2)=0.1

P(A2=0|C2)=0.8,P(A2=1|C2)=0.2

根据对朴素贝叶斯分类算法的描述,有了这些概率就相当于拥有了一个可用的分类器,使用这个分类器可以对未知类别的账号进行分类。

例如,现在有两个未知类别的账号,其一记为X1,发文频率为0.07,注册信息不完备;其二记为X2,发文频率为0.8,注册信息完备。

利用上述分类器可以计算出,对于X1,可得

P(A|C1)P(C1)=P(A1=0|C1)P(A2=0|C1)P(C1)

=0.5×0.3×0.9=0.0135

P(A|C2)P(C2)=P(A1=0|C2)P(A2=0|C2)P(C2)

=0.2×0.8×0.1=0.016

P(A|C1)P(C1)P(A|C2)P(C2)

所以X2是一个真实账号。

在上述案例中,通过简单的划分把连续取值的特征属性A1转换成了离散取值的特征属性。

在具体操作中,根据特征属性取值的不同情况,有三种对应的操作方法,分别称为多项式朴素贝叶斯、高斯朴素贝叶斯和伯努利朴素贝叶斯。

下面针对这三种不同的方法做一些简单的说明,内在原理不再详细解释,现阶段只需要关注具体的操作方法就可以了。

多项式朴素贝叶斯:特征属性取值为离散值。

此时通过训练数据计算P(Ck)和P(A|Ck)时,有可能出现由于训练数据中没有某些类别的数据,从而导致相应的概率为0的情况,这会极大地干扰分类工作的进行。

为了克服这种干扰,通常会引入一个大于0的平滑参数λ。

并通过

高斯朴素贝叶斯:当特征属性具有连续取值时,除了可以像前面的案例那样把连续取值离散化,还有另一种处理方式,即假设相应的特征属性服从正态分布(又称为高斯分布)。

伯努利朴素贝叶斯:这种模型同样对应到特征属性取值为离散值的情形。

但与多项式模型不同的是,在伯努利模型中,该特征的取值只能是0和1。

例如,上述案例中信息是否完备这个特征属性的取值即属于此种情况。

在伯努利模型中,特征属性取值为0和1时对应的两个条件概率满足

P(A=1|Ck)+P(A=0|Ck)=1

在可以使用贝叶斯分类的第三方的库中,往往会同时有上述三种处理方式供用户选择,可以通过引用相应的函数或者设置相应的参数来方便地实现这三种不同的方法。

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

如遇章节错误,请点击报错(无需登陆)

新书推荐

星门精灵掌门人麻衣道祖修仙:从就职德鲁伊开始商途灵境行者农家弃女三国之单身狗怒开无双校园重生之特工归来我家太子妃超凶的躲在冷宫苟成大佬朱雀记异界最强赘婿惊悚乐园玄浑道章神算小奶团驾到神秀之主龙抬头逍遥梦路开局从召唤诸天崛起天神诀我的姐夫是太子长生三千年猎人:我真不是除念师神医毒妃不好惹