天才一秒记住【畅想小说网】地址:http://www.cxtra.net
下面计算中四舍五入后都取两位小数,并且规定0×log20=1×log21=0。
(1)设定信息增益阈值
信息增益阈值设为0.03,认为小于这个阈值的增益对于改善分类的不确定性已经没有意义。
(2)生成根节点
H(X)=-{0.3×log2(0.3)+0.7×log2(0.7)}=0.88
消费频率F的条件熵为
上述计算中类别按照非优质、优质的顺序,属性按照低、中、高的顺序进行。
类似地,可以算出平均消费金额N与是否接受广告A的条件熵为
H(X丨N)=0.33
H(X丨A)=0.85
所以三个特征属性对应的信息增益分别为
Gain(X,F)=0.88-0.55=0.33
Gain(X,N)=0.88-0.33=0.55
Gain(X,A)=0.88-0.85=0.03
平均消费金额N对应的信息增益最大,所以选它作为根节点,从候选属性中删除N。
按照不同的属性取值生成三个分支,可以看到N的值为“中”
或“高”
的所有训练数据类别都是“优质客户”
,按照终止条件,这两个分支生成叶子节点“优质客户”
;N的值为“低”
的训练数据同时包含两种类别,需要使用其他属性继续分裂。
此时生成的树形结构如图3-2所示。
图3-2
(3)继续计算信息增益进行分裂
此时注意候选属性只有消费频率和是否接受广告。
因为在平均消费金额为“低”
的分支进行分裂,所以此时的训练数据只包含原表格中平均消费金额取值为“低”
的数据,如表3-4所示。
表3-4
类似于第二步,在此训练数据下,计算可得X的熵为0.81,消费频率的条件熵为0,是否接受广告的条件熵为0.79,这两个特征属性对应的信息增益分别是0.81和0.02,所以选择消费频率作为第二层的分裂属性。
注意到此时消费频率的三个取值对应的样本都只属于一个类别。
例如,消费频率为“低”
一定属于“非优质客户”
,所以满足程序终止的条件,生成叶子节点后即可得到最终的决策树,树形结构如图3-3所示。
本章未完,请点击下一章继续阅读!若浏览器显示没有新章节了,请尝试点击右上角↗️或右下角↘️的菜单,退出阅读模式即可,谢谢!