畅想小说网

第二节 决策树的ID3算法(第4页)

天才一秒记住【畅想小说网】地址:http://www.cxtra.net

下面计算中四舍五入后都取两位小数,并且规定0×log20=1×log21=0。

(1)设定信息增益阈值

信息增益阈值设为0.03,认为小于这个阈值的增益对于改善分类的不确定性已经没有意义。

(2)生成根节点

H(X)=-{0.3×log2(0.3)+0.7×log2(0.7)}=0.88

消费频率F的条件熵为

上述计算中类别按照非优质、优质的顺序,属性按照低、中、高的顺序进行。

类似地,可以算出平均消费金额N与是否接受广告A的条件熵为

H(X丨N)=0.33

H(X丨A)=0.85

所以三个特征属性对应的信息增益分别为

Gain(X,F)=0.88-0.55=0.33

Gain(X,N)=0.88-0.33=0.55

Gain(X,A)=0.88-0.85=0.03

平均消费金额N对应的信息增益最大,所以选它作为根节点,从候选属性中删除N。

按照不同的属性取值生成三个分支,可以看到N的值为“中”

或“高”

的所有训练数据类别都是“优质客户”

,按照终止条件,这两个分支生成叶子节点“优质客户”

;N的值为“低”

的训练数据同时包含两种类别,需要使用其他属性继续分裂。

此时生成的树形结构如图3-2所示。

图3-2

(3)继续计算信息增益进行分裂

此时注意候选属性只有消费频率和是否接受广告。

因为在平均消费金额为“低”

的分支进行分裂,所以此时的训练数据只包含原表格中平均消费金额取值为“低”

的数据,如表3-4所示。

表3-4

类似于第二步,在此训练数据下,计算可得X的熵为0.81,消费频率的条件熵为0,是否接受广告的条件熵为0.79,这两个特征属性对应的信息增益分别是0.81和0.02,所以选择消费频率作为第二层的分裂属性。

注意到此时消费频率的三个取值对应的样本都只属于一个类别。

例如,消费频率为“低”

一定属于“非优质客户”

,所以满足程序终止的条件,生成叶子节点后即可得到最终的决策树,树形结构如图3-3所示。

本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!

如遇章节错误,请点击报错(无需登陆)

新书推荐

明日之劫从斗破开始当大佬我以武道斩鬼神光明纪元步步生莲兰言之约至尊箭神晚唐浮生武道长生从内丹术开始荒火战争特种兵之二次入伍最弱功德系统怪谈作者拖更日记仙道邪君全球迷雾求生我们的家族没落了炮灰攻略我在末日文字游戏里救世遮天:成帝的我回到地球当保安四合院:香江首富从路边摊开始女明星的贴身保镖深渊主宰修仙从星际开始猎魔手记掌门人不高兴