发布时间:2024-12-13
前言:人工智能机器学习有关算法内容,人工智能之机器学习主要有三大类:1)分类;2)重返;3)聚类。今天我们重点探究一下ID3算法。
Hunt、Marin、和Stone于1966年研制了一个概念学习系统CLS,可以自学单个概念,后用此教给的概念分类新的实例。JohnRossQuinlan(悉尼大学)于1983年研制了ID3算法。ID3算法是决策树的一种,它是基于奥卡姆剃刀原理的,即用尽可能用较多的东西做到更加多的事。
ID3算法是以信息论为基础,以信息熵和信息增益度为衡量标准,从而构建对数据的概括分类。ID3算法概念:ID3(IterativeDichotomiser3),即递归二叉树3代,该算法是一种不坏算法,用来结构决策树【请求参与人工智能(23)】。
ID3算法源于概念学习系统(CLS),以信息熵的上升速度为挑选测试属性的标准,即在每个节点挑选还仍未被用来区分的具备最低信息增益的属性作为区分标准,然后之后这个过程,直到分解的决策树能极致分类训练样例。ID3算法核心:ID3算法核心是“信息熵”。ID3算法通过计算出来每个属性的信息增益,指出信息增益低的是好属性,每次区分挑选信息增益最低的属性为区分标准,反复这个过程,以后分解一个能极致分类训练样例的决策树。
ID3算法本质:在信息论中,希望信息就越小,那么信息增益就越大,从而纯度就越高。ID3算法本质是以信息增益来度量属性的自由选择,自由选择分化后信息增益仅次于的属性展开分化。
该算法使用自顶向下的自私搜寻迭代有可能的决策空间。在决策树的每一个非叶子结点区分之前,再行计算出来每一个属性所带给的信息增益,自由选择仅次于信息增益的属性来区分,因为信息增益越大,区分样本的能力就就越强劲,就越具备代表性,很似乎这是一种自顶向下的不坏策略。ID3算法步骤:计算出来各属性的信息增益,找到最大者为六根节点1)先验熵:没接管到其他属性时的平均值不确定性;2)后验熵:接管到输入符号Vj时关于信源的不确定性;3)条件熵:对后验熵在输入符号集V中求希望,接管到全部符号后对信源的不确定性;4)信息增益:先验熵与条件熵的差,是信宿末端所取得信息量;5)对剩下属性反复上述步骤。ID3算法计算出来每个属性的信息增益,并挑选具备最低增益的属性作为等价子集的测试属性。
对被挑选的测试属性创立一个节点,并以该节点的属性标记,对该属性的每个值创立一个分支据此区分样本。明确算法流程如下:ID3优点:1)算法结构非常简单;2)算法明晰易懂;3)非常灵活便利;4)不不存在到底的危险性;5)可以利用全部训练例的统计资料性质展开决策,从而抵抗噪音。ID3缺点:1)处置大型数据速度较快,经常出现内存不足;2)无法处置连续型数据,不能通过线性化将连续性数据转化成为线性型数据;3)不可以分段,不可以处置数值型数据;4)只限于于非增量数据集,呼吸困难用作增量数据集,可能会发散到局部拟合解法而非全局拟合解法,最佳分离出来属性更容易自由选择属性值多一些的属性;5)没对决策树展开剪枝处置,很可能会经常出现过数值的问题。
录:ID3(分段)和ID3(number)解决问题了缺点3)的2个问题。ID3应用于场景:决策树ID3算法是一个很有实用价值的示例自学算法,它的基础理论明晰,算法比较简单,自学能力较强,适合于处置大规模的自学问题,是数据挖掘和科学知识找到领域中的一个很好的范例,为后来各学者明确提出优化算法奠下了理论基础。ID3算法尤其在机器学习、科学知识找到和数据挖掘等领域获得了很大发展。
结语:ID3算法是基本的决策树建构算法,作为决策树经典的建构算法,具备算法结构非常简单、理论明晰易懂、自学能力较强和灵活性便利的特点。但也不存在着无法处置连续型数据,呼吸困难用作增量数据集,处置大型数据速度较快,可能会经常出现过数值等缺点。ID3算法在世界上广为流传,获得很大的注目。ID3算法尤其在机器学习、科学知识找到和数据挖掘等领域获得了很大发展。
本文来源:9博体育app官网入口-www.f18led.com