第二节决策树的ID3算法（第2页）

天才一秒记住【畅想小说网】地址：http://www.cxtra.net

可以结合上面的直观例子理解与决策树相关的概念。

所谓树形结构，指的是图3-1就像一棵倒置的树。

橙色的节点都是内部节点，代表“电影质量”

“时间”

“天气”

三个特征属性，特别地，“电影质量”

叫作根节点。

存放决策结果“看”

或者“不看”

的绿色节点就是叶子节点。

有了这个树形结构，根据特征属性的不同取值，沿着决策树的不同路径，就可以做出相应的决策了。

在这个直观的例子中，每个特征属性都有两个可能的取值，所以对应两个分支，这样的树叫作二叉树。

决策树对特征属性的取值没有个数限制，所以决策过程对应的树形结构可以更复杂。

与决策树复杂程度有关的另外一个因素是决策过程中所使用的特征属性的个数，它决定了树的深度。

在这个例子中使用了三个特征属性，所以这是一个三层的决策树。

从这个例子看，决策树的道理很简单，对它进行决策的方式也已经了解得很清楚了。

那么读者现在是不是可以完整地针对一个分类问题给出相应的决策树呢？如果尝试一下，会发现还有一个最关键的问题没有解决，就是如何构建一棵决策树。

具体地说，关于决策树的构建，需要解决如下两个问题。

（1）如何选择分裂属性

这个问题可以分解成两个小问题：一是选择哪个特征属性作为根节点？二是某个内部节点之下应该选择哪个特征属性作为下一层分裂属性？

（2）何时停止树的生长

在决策树生长成什么样子以后，就可以作为最终进行决策时所使用的决策树了？

一个分类问题，通常包含多个特征属性。

如果可以随意选择根节点和内部节点，当有m个特征属性时，用不同的顺序安排分裂属性，理论上可以生长出m！

棵不同的决策树。

所谓选择分裂属性的问题，其实是制订一个合理的量化标准，根据这个标准来比较不同的生长顺序的优劣，从而选择出最佳的生长顺序作为最终的决策树。

为了量化各种分裂属性选择方案的好坏，需要引入一个新的数学概念——熵（Entropy）。

熵的概念是由信息论的创始人香农提出的，现在在很多学科中都有重要的用处。

为了更容易理解这个概念，这里结合分类问题来描述它的定义。

设某个分类问题X包含n个类别m个特征属性，任意样本C属于第i个类别Xi（1≤i≤n）的概率为pi，则I（Xi）=-log2pi称为Xi的信息（Information），X的熵定义为

在分类问题中，如何简单地理解上述定义呢？显然有如下关系。

本章未完，请点击下一章继续阅读！若浏览器显示没有新章节了，请尝试点击右上角↗️或右下角↘️的菜单，退出阅读模式即可，谢谢！

第二节 决策树的ID3算法（第2页）