基本概念

决策树是对样本进行分类的树形模型。树由结点和有向边组成:

  • 内部结点表示一个特征或者属性。
  • 叶子结点表示一个分类。
  • 有向边代表了一个划分规则。

用决策树对需要测试的实例进行分类:从根节点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子结点;这时,每一个子结点对应着该特征的一个取值。如此递归地对实例进行测试并分配,直至达到叶结点。最后将实例分配到叶结点的类中。

它可以认为是 if-then 规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。

决策树的优点:可读性强,分类速度快。

决策树学习通常包括 3 个步骤:特征选择、决策树的生成和决策树的修剪。