基于构造超平面的两阶段决策树算法的分析
来源:网络 时间:2017-07-01 00:47:00
摘要:如何在测试节点里构造一个恰当的分割超平面是构造决策树的关键,与单变量决策树不同,多变量(倾斜)决策树可以找到与特征轴不垂直的超平面。本文将从几何学角度说明构造测试节点的过程,提出了一种两阶段决策树的算法。
Abstract: How to construct an appropriate partitioning hyperplane in test node is the key to construct a decision tree. Different from decision tree with a single variable, the multi-variable (tilted) decision tree can find a hyperplane which is not perpendicular to the characteristic shaft. This paper will explain the process of constructing the test node and propose a two-stage decision tree algorithm.
关键词:超平面;两阶段;决策树
0引言
决策树有着许多不同的应用,其中包括诊断学里面的长度衰退[1]、分等级的多级标签的分类[2]等。在机器学习和数据采集方面,决策树已经成为一种最广泛的模型。一些决策树分类器的算法,比如ID3[3],C4.5[4],CART等,经常被作为评价其他分类器性能的基准。它之所以流行,是因为其形式简单、判断迅速、解释容易和精确度高。
1两阶段决策树算法
1.1 两阶段构造超平面构造多变量决策树的中心问题是,在每个测试节点内对于连续的属性如何研究分割超平面函数如式(1):w1x1+w2x2+…+wnxn+threshold(阈值)=0,这里的X=(x1,x2…xn,1)是一个图形向量,它是由一个常数和n个描叙实例的特征组成的。WT=(w1,w2,…,wn,wn+1)是一个X的参数向量,也可以称为权向量(本文中假设WT是一个单位向量)。为了研究在每个测试决策树节点内构造超平面的过程,首先调整方程式(2):1w1x1+w2x2+…+wnxn=threshold,权向量WT=(w1,w2…wn)可以看作是用函数2构造的超平面的法线方向,然后我们可以将寻找超平面函数2的过程分为两个步骤:首先找出标准向量WT,然后再找出参数阈值。使WT中至少有一个参数不等于0,得到的超平面就会向特征轴倾斜;使WT中只有一个参数不为0,例如WT=(0,0,…,wi,…,0),得到的超平面就会与特征轴垂直。显然,如果在每个超平面的WT中只有一个参数不为0,构造的决策树将会退化为单变量树。为了深入研究这个问题,首先我们作了一个定义1。
定义1设V=(v1,v2…vn)(单位向量)是实例空间P内的一个方向向量,a=(a1,a2…an)是实例空间P内的一点。?坌a,如果a′=∑1?燮i?燮naivi,我们就说a′是a的V成分。
根据定义1可知,如把V当作标准轴,那么a′就是V轴上的值。
命题1设H是用函数(2)构造的分割超平面,假设A和H的交点的标准成分是v,那么v=threshold(阈值)。
证明设a=(a1,a2,…,an)是实例空间内的一点,?坌a∈P,a的标准成分b=∑1?燮i?燮nwiai。设a′=(a,a,…,a)是从a到标准轴的映射点,得到式(3):b=∑1?燮i?燮nwiai=∑1?燮i?燮nwia。
设t=(t1,t2,…,tn)是A和实例空间P的交点,因为WT是实例空间p内的标准向量,所以t=a′。联合(3)式,可以得到:b=∑1?燮i?燮nwia=∑1?燮i?燮nwiti=v。根据方程式(2),得到v=threshold(阈值)。
在权重向量WT内,如果只有一个参数不是0,例如WT=(0,0,…,wi,…,0),那么命题1中法线方向是准确的一个实例空间特征。因此,单变量决策树满足命题1。从这个角度来看,我们的框架是单变量决策树的延伸。此外,一旦发现有法线方向,就可以简单地解决超平面阈值:计算每个实例的标准成分作为一维空间值,然后根据一些标准(如基尼),寻找作为函数(2)阈值的最佳分割阈值。
1.2 两阶段决策树算法通过在1.1内的分析,寻找超平面函数的过程可以划分为两个阶段。基于这个,介绍两阶段决策树算法,这种算法通过两个阶段为每个测试节点构造超平面,如图1。除了步骤2和3,此算法和其他决策树算法没有什么区别。步骤2(第一阶段),候选超平面的标准列表是用某种研究函数构造的。许多著名的方法可直接用在这里寻找法线方向,如主成分分析,合作联盟等。步骤3(第二阶段)分为两个阶段:在第一阶段中,每个候选超平面阈值是基于一些纯判断标准(如信息增益率和基尼)。在寻找连续属性分割点方面,这个阶段类似于单变量决策树算法。在第二阶段,此模型根据判断标准从候选列表中选出最佳分割超平面。
2结论
在本文中,首先从几何学角度重新解释了构造测试节点的过程,并在此基础上,提出了两阶段方法来为决策树的每个测试节点构造超平面。第一阶段寻找基于无监督或监督方法的合适的法线方向。基于一些如基尼和增长比的标准,第二阶段找出在法线方向上的超平面的截距。最后提出了两阶段的构造决策树算法。
参考文献
[1]Su,X.G.,Tsai,C.-L.,& Wang,C.(2009).Tree-structured model diagnostics for linear regression.Mach Learn 74:111-131.
[2]Vens, C. Struyf, J., Schietgat, L., Dzeroski, S., & Blockeel,H.(2008). Decision trees for hierarchical multi-label classification.Mach Learn,73:185-214.
[3]Quinlan,J.R(1979).Discovering rules by induction from large collection of examples.In D.Michie,editor.
[4]Quinlan J R.(1993).C4.5:Programs for Machine Learning[M].San Mateo,CA:Morgan Kaufman
- 上一篇:关于谈软件的破解与保护
- 下一篇:试析中职学校汉字录入教学探索

最新论文
热点论文
- [中等教育] 职专政治教育中的德育渗透
- 帮助学生树立正确的价值观和人生观,提升学生的个人品德与思想素质,是职专政治教育的主要目标与根本目的。但受限于传统政治教育的教学 [全文]
- [中国哲学] 传递“中国梦”正能量是记者的神圣使命
- 摘要:中国梦是中华民族伟大复兴的梦,是当今中华民族前进的动力,是当前中国最具影响力、最具感染力、最具普遍性的正能量。记者作为以 [全文]
- [财务控制] 论企业集团财务控制的对策
- 摘 要:市场经济飞速发展促使企业集团组织形式发生非常大的变化,那么企业集团需要有效利用自身发展优势,促进现代化经济发展。 改革逐渐 [全文]
- [财务控制] 中小企业的财务控制问题分析
- 摘 要:随着市场经济体制不断完善,我国中小企业进入快速发展阶段,其在国民经济发展中的作用被不断凸显出来。本文中笔者以中小企业财务管 [全文]
- [职业教育] 分析音乐课堂中的情感互动及学生体验
- 【摘要】针对音乐课堂中的情感互动及学生体验进行分析,基于学生的实际音乐学习需求、音乐学习目标等予以教学设计,以期能够不断提升音 [全文]
- [市场营销] 新时期下市场营销的演变趋势分析
- 摘要:随着全球经济互相影响,新市场格局的形成让新时期环境里市场营销不断发生变革。而本文主要是对当今市场新形势进行一个分析,找出对市 [全文]
- [国际贸易] 国际贸易融资创新及风险控制
- [摘 要] 国际贸易企业融资风险的主要表现有两种:一是国际贸易企业无法以自身的流动资金偿还债务,要通过集资的方式偿还债务本金和利息; [全文]
- [国际贸易] “互联网 +”时代下国际贸易发展策略研究
- 摘 要:随着网络技术和经济全球化的进一步发展,互联网关系到国际贸易领域的方方面面,并以全新的国际贸易形态,将分散在世界各地的市场, [全文]