id3决策树鸢尾花 python_30分钟理解决策树的基本原理

文章发布于公号【数智物语】 (ID：decision_engine)，关注公号不错过每一篇干货。

来源 | Python与算法之美(ID：Python_Ai_Road)

作者 | 梁云1991

决策树是一种非参数的监督学习方法，它主要用于分类和回归问题。

决策树模型通过一系列if then决策规则的集合，将特征空间划分成有限个不相交的子区域，对于落在相同子区域的样本，决策树模型给出相同的预测值。

这些if then决策规则之间的层次关系形成一个树形结构，称之为决策树，这些不相交的子区域和树结构的叶子节点一一对应。

一，决策树原理概述

假设空间

下面从假设空间，目标函数，优化算法3方面阐述决策树算法的基本原理。

假设空间即我们对模型形式的先验假设，最终我们求得的模型必定符合我们对模型形式的先验假设。

决策树模型的先验形式可以表述成如下：

其中q[x]是从特征空间映射到节点编号空间的函数。决策树模型的关键是将特征空间划分成不相交的子区域，落在相同子区域的样本具有相同的预测值。

为了确定一棵决策树的完备结构，要明确如下两个方面：一是如何划分子区域，二是子区域的预测值取多少。

目标函数

目标函数即我们用什么标准来评价一个模型的好坏。目标函数决定了我们从假设空间中选择模型的偏好。

决策树的目标函数可以用来评价一棵决策树的好坏。这个目标函数应当包括两个方面的内容。第一个是反应决策树对样本数据点拟合准确度的损失项，第二个是反应决策树模型复杂程度的正则化项。

正则化项可以取模型的叶子节点的数量。即决策树模型划分得到的不相交子区域越多，我们认为模型越复杂。

对于损失项，如果是回归问题，损失项可以取平方损失，如果是分类问题，我们可以用不纯度来作为衡量标准。

为什么用不纯度呢？由于决策树的同一叶子节点上的所有样本都取相同的预测值，如果这些样本的真实 label 只有一种取值，那么这个叶子节点上的样本是非常“纯净”的，我们可以直接指定预测值为这个叶子节点上 label 的取值，预测误差为0。反之，如果叶子节点上不同样本的 label 的取值很杂乱，所谓众口难调，那么无论我们如何指定叶子节点上的预测值，总会有较大的预测误差。

那么，如何来衡量不纯度呢？一般有3种方法，信息熵，基尼不纯度，以及分类误差率。分类误差率即以 label 取值最多的那个类别作为叶子节点预测值时的误差率。信息熵和基尼不纯度我们稍后介绍。

优化算法

优化算法指的是通过什么样的方式调整我们的模型结构或模型超参数取值，使得模型的目标函数取值不断降低。

优化算法决定了我们用什么样的步骤在假设空间中寻找合适的模型。

对于决策树而言，优化算法包括树的生成策略和树的剪枝策略。

树的生成策略一般采用贪心的思想不断选择特征对特征空间进行切分。

树的剪枝策略一般分为预剪枝和后剪枝策略。一般来说后剪枝策略生成的决策树效果较好，但其计算成本也更高。

二，ID3，C4.5，CART决策树的对比

适用问题范围的不同

ID3算法只能处理离散特征的分类问题，C4.5能够处理离散特征和连续特征的分类问题，CART算法可以处理离散和连续特征的分类与回归问题。

假设空间的不同

ID3和C4.5算法使用的决策树可以是多分叉的，而CART算法的决策树必须是二叉树。