您现在的位置: > 行业杂谈 > 浅谈决策树的基本原理和算法
浅谈决策树的基本原理和算法
决策树的起源是CLS(Concept Learning System),这个概念是由Hunt、 Marin和Stone为了研究人类概念模型而得来的,于1966年提出,该决策树从诞生之日起,便得到了学术界以及产业界的广泛关注,到如今已经发展了50多个年头,产生出了许多的变形算法,是进行数据挖掘的一个非常有力的工具,小编在这里强烈的建议香港vps的使用者能够对于决策树这一个工具有一个大概的了解,它一定能够对各位用户的工作产生极大的帮助。
决策树在于数据挖掘领域主要的作用是用于数据挖掘。通常决策树通过一系列规则对数据进行分类。它提供一种在什么条件下会得到什么值的类似规则的方法。一般来讲决策树分为分类树和回归树两种,分类树对离散变量做决策树,回归树对连续变量做决策树。
近来的调查表明决策树也是最经常使用的数据挖掘算法,直观看上去,决策树分类器就像判断模块和终止块组成的流程图,利用树的叶子分类结果。实际上,样本所有特征中有一些特征在分类时起到的作用相对于其它的属性来说作用更大一些,决策树的构造过程就是找到这些具有决定性作用的特征,这个过程往往是递归的。
决策树的学习往往分为以下的几个过程:1:特征选择:特征选择是指从训练数据中众多的特征中根据一定的选择标准来选择一个特征作为当前节点的属性,如何选择特征有着很多不同量化评估标准标准,从而衍生出不同的决策树算法。2:决策树生成: 根据选择的特征评估标准,从上至下递归地生成不同的节点,直到数据集已经被完全的分到了叶子节点之下。树结构来说,递归结构是最容易理解的方式。3:剪枝:因为在实际的操作中,由于数据量太小以及可能存在错误数据的原因,决策树可能会出现过拟合现象,从而使得决策树无法实现对于数据的预测,因此决策树一般来说需要剪枝。
下面介绍一些决策树的常用算法:ID3、CART和C4.5算法:
1:ID3算法:
ID3算法中根据信息论的信息增益评估和选择特征,每次选择信息增益最大的特征做判断模块。ID3算法可用于划分标称型数据集,没有剪枝的过程,为了去除过度数据匹配的问题,可通过裁剪合并相邻的无法产生大量信息增益的叶子节点(例如设置信息增益阀值)。
2:CART算法:
C4.5算法用信息增
3:C4.5算法益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足在树构造过程中进行剪枝;能够完成对连续属性的离散化处理;能够对不完整数据进行处理。
采用的是Gini指数(选Gini指数最小的特征s)作为分裂标准,同时它也是包含后剪枝操作。ID3算法和C4.5算法虽然在对训练样本集的学习中可以尽可能多地挖掘信息,但其生成的决策树分支较大,规模较大。
关于的决策树的基本原理以及算法就介绍到这里了。
如果您还有什么不明确或者是不懂的地方,欢迎来新世界主机咨询了解,详情请咨询QQ: TEL: 。我们必将竭诚为您服务。
本文地址:
http://xgvps.com/xingyezatan/425.htm
版权所有*转载时必须以链接形式注明作者和原始出处
Copyright © 2001-2020 香港vps 网址:http://xgvps.com/
香港vps、香港服务器、香港vps主机、香港vps哪里好、就到香港新世界vps主机。
信息来源于网络以及网友投稿,如侵犯了您的权益,请及时通知本站。