决策树是怎么产生的

2014-11-18 决策树

展示量: 1797



 
  决策树是对分类问题进行深入分析的一种方法,在实际问题中,按算法生成的决策树往往复杂而庞大,令用户难以理解。这就告诉我们在重分类精确性的同时,也要加强对树修剪的研究。
  随着数据挖掘技术的逐步成熟,其算法的深入研究已成为当前该领域的焦点,决策树方法作为数据挖掘领域重要算法之一,在分类规则中突现了它的优势。决策树方法是从机器学习中引出的,它根据给定的训练样本数据集来构建分类模型,以树的形式来表达模型。
  一般来说,决策树是一个类似于流程图的树结构,其中每个节点表示在一个属性上的测试,每个分枝代表一个测试输出,每个树叶节点代表类或类分布。决策树的最顶层节点是根节点。更明确地说,决策树通过根节点到叶节点的顺序对实例进行分类,其中每个节点代表一个属性,每个分枝代表它所连接的上节点在其属性上的可能取值。举例来说,一个实例的分类是从树的根节点开始,测试该节点所代表的属性,然后沿属性取值的某个分枝向下移动,不断重复这个过程,直至到达叶节点,即得到该实例所属的类。
  机器学习领域研究对数据的归纳分类,主要集中在预测精确度方面。然而,在许多实际业务中,只有"数据的预测结构更易于理解"的分类规则才易让人接受,就象这个分类规则所解决的决策问题一样让人清楚明白。在机器学习和统计领域,决策树归纳作为一种分类问题的解决方法正在被广泛的研究。由于许多树简化规则正在生成越来越简单和越来越小的决策树,树简化规则已经成为继预测精度之后的第二个研究焦点。总结树简化技术的关键问题在于解决方法的多样性。要驾御这种多样性,可以将这些方法分为五类。类的建立是将树归纳看作是对预想树空间的即席状态搜索。
  随着数据挖掘技术的逐步成熟,其算法的深入行业研究已成为当前该领域的焦点,决策树方法作为数据挖掘领域重要算法之一,在分类规则中突现了它的优势。
  (1)C&R 树
  classification and regression trees 是一种基于树的分类和预测方法,模型使用简单,易于理解(规则解释起来更简明易),该方法通过在每个步骤最大限度降低不纯洁度,使用递归分区来将训练记录分割为组。然后,可根据使用的建模方法在每个分割处自动选择最合适的预测变量。如果节点中100% 的观测值都属于目标字段的一个特定类别,则该节点将被认定为“纯洁”。目标和预测变量字段可以是范围字段,也可以是分类字段;所有分割均为二元分割(即分割为两组)。分割标准用的是基尼系数(Gini Index)。
  (2)QUEST决策树
  优点:运算过程比C&R 树更简单有效quick unbiased efficient statistical tree (快速无偏有效的统计树)QUEST 节点可提供用于构建决策树的二元分类法,此方法的设计目的是减少大型 C&R 决策树分析所需的处理时间,同时减小分类树方法中常见的偏向类别较多预测变量的趋势。预测变量字段可以是数字范围的,但目标字段必须是分类的。所有分割都是二元的。
  (3)CHAID决策树
  优点(chi-squared automatic interaction detection,卡方自动交互检测),通过使用卡方统计量识别最优分割来构建决策树的分类方法
  1、可产生多分支的决策树;
  2、目标和预测变量字段可以是范围字段,也可以是分类字段;
  3、从统计显著性角度确定分支变量和分割值,进而优化树的分枝过程(前向修剪);
  4、建立在因果关系探讨中,依据目标变量实现对输入变量众多水平划分。
  (4)C5.0决策树
  优点:执行效率和内存使用改进、适用大数据集
  1、面对数据遗漏和输入字段很多的问题时非常稳健;
  2、通常不需要很长的训练次数进行估计;工作原理是基于产生最大信息增益的字段逐级分割样本;
  3、比一些其他类型的模型易于理解,模型推出的规则有非常直观的解释;
  4、允许进行多次多于两个子组的分割。
  决策树方法并不适用于现实世界中的所有问题,根据管理学理论,它需要满足下列条件时才能产生较优的结果。
  首先,实例要用“属性-值”的形式描述。具体讲,实例是由一系列固定的属性和值构成:属性的可能取值范围比较小时,决策树的效果最好。
  其次,目标类变量的可能取值是离散的。决策树算法要求每个实例属于某个类,最简单的情况是只存在两个可能的目标类取值,当然也可以扩充到两个以上的可能取值。
  最后,训练样本可以有错误。即决策树算法应是健壮的,不仅训练样本的目标类可以有错误,而且属性值也可以有错误。训练样本数据的某个属性可以包含缺失值。
  决策树算法在分类规则中,通过训练样本数据集即可构建分类模型,但这并不适用于现实生活中的任何数据,所以,在不满足其条件时,应尽可能的创造条件,使其算法能够准确、快速的实施,使决策树方法能更好的为数据挖掘领域服务。
Copyright©彩票网投APP ALL Rights Reserved