天才一秒记住【畅想小说网】地址:http://www.cxtra.net
接下来利用标注数据的信息计算P(C1|A),P(C2|A),…,P(Cm|A)。
根据贝叶斯公式可知
在具体操作环节,朴素贝叶斯有一些技巧用来减少计算量。
因为朴素贝叶斯只关心这些条件概率的大小关系,而对相同的特征属性取值,上述公式右端的分母是相同的(都是P(A)),它的值并不影响这些条件概率按大小排列的顺序,所以为了减少计算量,只需要计算上述公式右端的分子并对其按大小关系排序即可。
上述表述中出现了分类器的概念。
因为这种方法最终将用于数据的分类,所以训练完成后得到的模型又称为分类器。
根据相互独立的随机事件的定义,可以得到在独立性假设下有
P(A|Ck)=P(A1|Ck)P(A2||Ck)
综上所述,朴素贝叶斯的流程如图4-3所示。
图4-3朴素贝叶斯流程
接下来通过一个简单案例来熟悉上述工作流程中的概念和方法。
某个论坛希望通过程序自动识别账号的真实性,可以使用朴素贝叶斯分类算法来实现这一任务。
在这个问题中需要处理的就是论坛所有的注册账号,首先需要确定类别和特征属性。
期望把账号分为C1={真实账号}和C2={虚假账号}两个类别,假设所用的特征属性为A1={发文频率}和A2={注册信息是否完备}。
A1由发文篇数和注册天数的比值确定,是一个取连续值的变量。
对于这种取值,需要先把它转换成离散值,然后计算它取相应的离散值的概率。
假设把发文频率划分成(-∞,0.05,(0.05,0.2)和[0.2,+∞)三个区间,然后计算发文频率落在这三个区间的概率。
可以把这种划分方式理解成,发文频率落在三个区间中分别对应到发文频率这一特征属性的取值为{-1,0,1}。
之所以划分成这样的三个区间,可认为是依据经验,这样三个区间恰好对应到发文频率低、中、高三种情形。
A2是一个布尔型取值的特征属性,取值为{0,1},分别对应到注册信息不完备和完备两种情形。
假设通过人工标注的方式获得了10000条训练数据,并且依据训练数据计算得到如下概率。
P(C1)=0.9,P(C2)=0.1
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!