畅想小说网

第二节 朴素贝叶斯分类算法(第2页)

天才一秒记住【畅想小说网】地址:http://www.cxtra.net

接下来利用标注数据的信息计算P(C1|A),P(C2|A),…,P(Cm|A)。

根据贝叶斯公式可知

在具体操作环节,朴素贝叶斯有一些技巧用来减少计算量。

因为朴素贝叶斯只关心这些条件概率的大小关系,而对相同的特征属性取值,上述公式右端的分母是相同的(都是P(A)),它的值并不影响这些条件概率按大小排列的顺序,所以为了减少计算量,只需要计算上述公式右端的分子并对其按大小关系排序即可。

上述表述中出现了分类器的概念。

因为这种方法最终将用于数据的分类,所以训练完成后得到的模型又称为分类器。

根据相互独立的随机事件的定义,可以得到在独立性假设下有

P(A|Ck)=P(A1|Ck)P(A2||Ck)

综上所述,朴素贝叶斯的流程如图4-3所示。

图4-3朴素贝叶斯流程

接下来通过一个简单案例来熟悉上述工作流程中的概念和方法。

某个论坛希望通过程序自动识别账号的真实性,可以使用朴素贝叶斯分类算法来实现这一任务。

在这个问题中需要处理的就是论坛所有的注册账号,首先需要确定类别和特征属性。

期望把账号分为C1={真实账号}和C2={虚假账号}两个类别,假设所用的特征属性为A1={发文频率}和A2={注册信息是否完备}。

A1由发文篇数和注册天数的比值确定,是一个取连续值的变量。

对于这种取值,需要先把它转换成离散值,然后计算它取相应的离散值的概率。

假设把发文频率划分成(-∞,0.05,(0.05,0.2)和[0.2,+∞)三个区间,然后计算发文频率落在这三个区间的概率。

可以把这种划分方式理解成,发文频率落在三个区间中分别对应到发文频率这一特征属性的取值为{-1,0,1}。

之所以划分成这样的三个区间,可认为是依据经验,这样三个区间恰好对应到发文频率低、中、高三种情形。

A2是一个布尔型取值的特征属性,取值为{0,1},分别对应到注册信息不完备和完备两种情形。

假设通过人工标注的方式获得了10000条训练数据,并且依据训练数据计算得到如下概率。

P(C1)=0.9,P(C2)=0.1

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

如遇章节错误,请点击报错(无需登陆)

新书推荐

重生八八从木匠开始怪谈作者拖更日记这个修士很危险江山美人志从呆毛王开始公开处刑大道朝天洪荒:我,龙族老祖,绝不出关!英雄联盟之灾变时代我家可能有位大佬我家世显赫,躺平不过分吧!猎人:我真不是除念师万道成神藏锋皇兄万岁崇祯大明:从煤山开始齐天大圣之无限吞噬暗夜通灵王妃每天都想和离反贼平天下官途,搭上女领导之后!老中医的美满生活我家老婆可能是圣女直播写纯爱文的我在虫族封神傲世九重天掌门人不高兴