R语言与机器学习学习笔记（分类算法）（2）决策树算法

来源：互联网发布：昆明关键字优化公司编辑：程序博客网时间：2024/06/02 11:28

算法二：决策树算法

决策树定义

决策树模型是基于特征对实例进行分类的树形结构。由结点和有向边组成。结点包括内部结点和叶节点，内部结点为特征或属性，叶子节点表示一个类。

【优点】

模型具有可读性，分类速度快。

以鸢尾花为例，观察上图，我们判决鸢尾花的思考过程可以这么来描述：花瓣的长度小于2.4cm的是setosa(图中绿色的分类)，长度大于1cm的呢?我们通过宽度来判别，宽度小于1.8cm的是versicolor(图中红色的分类)，其余的就是virginica(图中黑色的分类)

我们用图形来形象的展示我们的思考过程便得到了这么一棵决策树：

从存储的角度来说，决策树解放了存储训练集的空间，毕竟与一棵树的存储空间相比，训练集的存储需求空间太大了。

决策树的构建

决策树学习的本质是从训练数据集中归纳出一组分类规则，得到的决策树与训练数据矛盾较小，同时具有很好的泛化能力。

决策树学习的损失函数通常是正则化的极大似然函数。

决策树学习的策略是以损失函数为目标函数的最小化。

从所有的决策树中选择最优的决策树是一个NP完全问题，所以通常采用启发式算法，近似求解最优化问题。

决策树的学习包含特征选择，决策树的生成与决策树的剪枝过程。特征选择选取对训练数据有分类能力的特征。剪枝是为了让决策树有更好的泛化能力。决策树的生成对应局部选择，考虑局部最优；决策树的剪枝对应全局选择，考虑全局最优。

一、构造决策树（ID3算法）

一般来说，决策树的构造主要由两个阶段组成:

第一阶段，生成树阶段。包括特征选择和生成决策树选取部分受训数据建立决策树，决策树按广度优先建立直到每个叶节点包括相同的类标记为止。

第二阶段，决策树修剪阶段。用剩余数据检验决策树，如果所建立的决策树不能正确回答所研究的问题，我们要对决策树进行修剪直到建立一棵正确的决策树。这样在决策树每个内部节点处进行属性值的比较，在叶节点得到结论。从根节点到叶节点的一条路径就对应着一条规则，整棵决策树就对应着一组表达式规则。

问题：我们如何确定起决定作用的划分变量。

我还是用鸢尾花的例子来说这个问题思考的必要性。使用不同的思考方式，我们不难发现下面的决策树也是可以把鸢尾花分成3类的。

为了找到决定性特征，划分出最佳结果，我们必须认真评估每个特征。通常特征选择的准则为信息增益，信息增益比和基尼系数。

熵度量随机变量的不确定性。熵越大，变量的不确定性越大。

特征A对数据集D的信息增益g(D,A)为数据集D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差。

g(D,A) = H(D)-H(D|A)

决策树种的信息增益等价于训练数据集中类与特征的互信息。

信息增益对应的算法为ID3，ID3倾向于选择具有大量值的属性，如ID。信息增益比对这一问题进行校正。

增益率用分裂信息将信息增益规范化，对应的算法为C4.5，C4.5倾向于产生不平衡的划分。

基尼系数对应的算法为CART（Classification And Regression Tree），偏向多值属性，类的数量大时有困难，倾向于导致相等大小的分区和纯度。

1、计算给定数据集的熵和基尼系数

R代码：

#计算熵，数据的最后一列为类别calcent = function(data){  #计算总数量和每一类出现的概率  num = nrow(data)  prob = table(data[,ncol(data)])/num  ent = 0  for(i in 1:length(prob))    #当prob[i]为0时，log(prob[i])为无穷小，所以要判断，不计算prob为0的情况    if (prob[i] != 0 )      ent = ent-prob[i]*log(prob[i],2)  return(as.numeric(ent))}#计算基尼系数calgini = function(data){  #计算总数量和每一类出现的概率  num = nrow(data)  prob = table(data[,ncol(data)])/num  gini = 1  for(i in 1:length(prob))    if (prob[i] != 0 )      gini = gini-prob[i]^2  return(as.numeric(gini))}

我们这里把最后一列作为衡量熵的指标，例如数据集mudat(自己定义的)

> mudat

x y z

1 1 1 y

2 1 1 y

3 1 0 n

4 0 1 n

5 0 1 n

计算熵

> calcent(mudat)

0.9709506

熵越高，混合的数据也越多。得到熵之后，我们就可以按照获取最大信息增益的方法划分数据集

2、按照给定特征划分数据集

为了简单起见，我们仅考虑标称数据(对于非标称数据，我们采用划分的办法把它们化成标称的即可)。

R代码：

#按照给定特征划分数据集splitdata = function(data,variable,value){  #使用split函数，按照variable列划分数据集，得到list  temp = split(data, data[,variable])  #找到variable列值为value的划分结果，去掉variable列，输出  for (i in 1:length(temp)) {    if (temp[[i]][1,variable] == value) {      res = data.frame(temp[[i]])[,-variable]    }  }  return(res)}

这里要求输入的变量为：数据集，划分特征变量的序号，划分值。我们以前面定义的mudat为例，以“X”作为划分变量，划分得到的数据集为：

> split(mudat,2,1)

x z

1 1 y

2 1 y

3 0 n

> split(mudat,2,0)

x z

4 1 n

5 1 n

3、选择最佳划分(基于信息增益)

根据信息增益的特征选择方法是：对训练数据或子集D，计算其每个特征的信息增益，并比较大小，选择信息增益最大的特征。

#基于信息增益选择最佳划分choose = function(data){  variable_num = ncol(data)-1  ent_base = calcent(data)  bestinfogain = 0  infogain = 0  #对每个属性，计算信息增益，信息增益 = 原本信息熵 - 划分后的信息熵  for(i in 1:variable_num){    #求属性的标签    uniquevals = unique(data[,i])    ent_new = 0    #根据属性i按照不同标签划分得到的子集，计算各子集的信息熵并加权求和    for(j in 1:length(uniquevals)){      subset = splitdata(data,i,uniquevals[j])      prob = nrow(subset) / nrow(data)      ent_new = ent_new + prob * calcent(subset)    }    #计算属性i对应的信息增益    infogain = ent_base - ent_new    #选择信息增益最大的属性    if (infogain > bestinfogain) {      bestinfogain = infogain      bestvariable = i    }  }  return(bestvariable)}

函数choose包含三个部分，

第一部分：求出一个分类的各种标签;

第二部分：计算每一次划分的信息熵;

第三部分：计算最好的信息增益，并返回分类编号。

我们以上面的简易例子mudat为例，计算划分，有：

> choose(mudat)

[1] 1

第一个变量相当于ID,每个标签对应一个样本，熵最小，得到的信息增益最大。因此选第一个变量进行划分。但按照ID划分并没有意义。

如果数据集为

> mudat

x y z

0 1 1 y

0 0 0 n

1 0 1 n

划分的结果为2

> choose(data)
[1] 2

因为，y=1时都为y类，y=0时，都为n类

4、递归构建决策树

我们使用著名数据集——隐形眼镜数据集，利用上述的想法实现一下决策树预测隐形眼镜类型。

数据集下载地址：http://archive.ics.uci.edu/ml/machine-learning-databases/lenses/

下面是一个十分简陋的建树程序(用R实现的)，为了叙述方便，我们给隐形眼镜数据名称加上标称："age", "spectacle", "astigmatic", "tear", "classes".

建树的R程序简要给出如下：

#建树buildtree = function(data){  variable = choose(data)  if(variable == 0)    print("finish")  else{    #输出划分属性    print(variable)    #检查属性对应的标签种类，标签为1，则为叶子节点    level = unique(data[,variable])    if(length(level) == 1)      print("finish")    else      #标签不为1，继续划分子树      for(i in 1:length(level)){        data1 = splitdata(data, variable, level[i])        #数据子集属于一类，结束        if(is.null(ncol(data1)) || length(unique(data1[,ncol(data1)])) == 1)          print("finish")        else          buildtree(data1)      }  }}

运行结果：

>bulidtree(lenses)

[1] 4

[1]"finish"

[1] 3

[1] 1

[1]"finish"

[1] 1

[1]"finish"

[1] 2

[1]"finish"

[1] 1

[1]"finish"

这棵树的解读有些麻烦，因为我们没有打印标签，(程序的简陋总会带来这样，那样的问题，欢迎帮忙完善)，人工解读一下：

首先利用4(tear rate)的特征reduce，normal将数据集划分为nolenses(至此完全分类)，normal的情况下，根据3(astigmatic)的特征no，yes分数据集(划分顺序与因子在数据表的出现顺序有关)，no这条分支上选择1(age)的特征pre，young，presbyopic划分，前两个得到结果soft，最后一个利用剩下的一个特征划分完结(这里，由于split函数每次调用时，都删掉了一个特征，所以这里的1是实际第二个变量，这个在删除变量是靠前的情形时要注意)，yes这条分支使用第2个变量prescript作为特征划分my ope划分完结，hyper利用age进一步划分，得到最终分类。

画图说明逻辑：

ID3算法只有树的生成，并没有进行剪枝，可能出现过拟合情形。我们暂不考虑剪枝的问题，下面的问题我想是更加迫切需要解决的：在选择根节点和各内部节点中的分支属性时，采用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性，在有些情况下这类属性可能不会提供太多有价值的信息。那么如何处理这些问题，C4.5算法不失为一个较好的解决方案。

二、C4.5算法

C4.5对ID3算法进行了改进:

（1）在生成过程中，用信息增益比来选择特征，克服了用信息增益选择属性时偏向选择取值多的属性的不足。

（2）在树的构造过程中进行剪枝

（3）能够完成对连续属性的离散化处理

（4）能够对不完整数据进行处理。

如何处理连续属性？

1.对特征的取值进行升序排序
2.两个特征取值之间的中点作为可能的分裂点，将数据集分成两部分，计算每个可能的分裂点的信息增益（InforGain）。优化算法就是只计算分类属性发生改变的那些特征取值。
3.选择修正后信息增益(InforGain)最大的分裂点作为该特征的最佳分裂点
4.计算最佳分裂点的信息增益率（Gain Ratio）作为特征的Gain Ratio。注意，此处需对最佳分裂点的信息增益进行修正：减去log2(N-1)/|D|（N是连续特征的取值个数，D是训练数据数目，此修正的原因在于：当离散属性和连续属性并存时，C4.5算法倾向于选择连续特征做最佳树分裂点）

【优点】

（1）分类规则易于理解，准确率高

【缺点】

（1）在构造树的过程中，需要对数据集多次扫描和排序，导致算法低效。

（2）C4.5只适合于能够驻留于内存的数据集，当训练集大得无法在内存容纳时程序无法运行。

算法描述：

(1) 创建根节点N;

(2) IF T都属于同一类C，则返回N为叶节点，标记为类C;

(3) IF T_attributelist为空或T中所剩的样本数少于某给定值则返回N为叶节点，标记为T中出现最多的类;

(4) FOR each T_attributelist中的属性计算信息增益率information gain ratio;

(5) N的测试属性test_attribute=T_attributelist中具有最高信息增益率的属性;

(6) IF测试属性为连续型则找到该属性的分割阀值;

(7) FOR each 由节点N长出的新叶节点{

IF 该叶节点对应的样本子集T’为空

则分裂该叶节点生成一个新叶节点，将其标记为T中出现最多的类;

ELSE 在该叶节点上执行C4.5formtree(T’,T’_attributelist),对它继续分裂;

}

(8) 计算每个节点的分类错误，进行树剪枝。

前7步为决策树生成算法，第八步为决策树剪枝。决策树剪枝往往通过极小化决策树整体的损失函数实现。

剪枝算法描述：

输入：生成算法产生的整个数T，模型复杂度参数alpha

输出：修剪后的子树T1

（1）计算每个结点的经验熵

（2）递归地从树的叶子节点向上回缩，如果回缩后损失函数值小于回缩前，则进行剪枝

（3）重复（2），直至不能继续为止。

决策树剪枝算法可通过动态规划实现。

以鸢尾花数据为例子，使用C4.5算法得到的分类树见下图：

预测结果：

观察\预测 setosa versicolor virginica

setosa 50 0 0

versicolor 0 49 1

virginica 0 2 48

下面我们使用上面提到的隐形眼镜数据集，利用C4.5实现一下决策树预测隐形眼镜类型。

得到结果：

hard no lenses soft

hard 3 1 0

no lenses 0 14 1

soft 0 0 5

看起来还不错，不是吗?

(注：图片与预测表输出结果是已经经过剪枝的，所以可能和我们之前程序算出的有些不同)

我们之前的C4.5的建树R代码如下：

鸢尾花一例：

library(RWeka)

library(party)

oldpar=par(mar=c(3,3,1.5,1),mgp=c(1.5,0.5,0),cex=0.3)

data(iris)

m1<-J48(Species~Petal.Width+Petal.Length,data=iris)

table(iris$Species,predict(m1))

write_to_dot(m1)

if(require("party",quietly=TRUE))

plot(m1)

隐形眼镜一例：

lenses<-read.csv("D:/R/data/lenses.csv",head=FALSE)

m1<-J48(V5~.,data=lenses)

table(lenses$V5,predict(m1))

write_to_dot(m1)

if(require("party",quietly=TRUE))

plot(m1)

这个分类与我们之前使用ID3分类得到的结果有所不同(搜索效率高了一些，准确率相当)，使用信息增益倾向于多分类的贪心算法导致的不足在这里显示的淋漓尽致，更可以看出C4.5比ID3改进的地方绝不止能处理连续变量这一条。

三、 CART算法

分类与回归树，是在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。假设决策树为二叉树，左分支为是分支，右分支为否分支，递归地二分每个特征，将输入空间划分为有限个单元，并在这些单元上确定预测的概率分布。

CART由决策树生成和剪枝两个阶段构成。

决策树生成：递归地构建二叉决策树，对回归树用平方误差最小化准则，生成最小二乘回归树，对分类树用基尼系数最小化准则。

CART生成算法描述：

从根节点开始，递归地对每个结点进行以下操作：

(1) 对该结点的训练数据集D，计算现有特征对该数据集的基尼指数。对每个特征A，对其可能取值ai是或否将数据集分成两部分，计算A=a时的基尼系数

为N分配类别;

IF T都属于同一类别OR T中只剩一个样本

则返回N为叶节点，为其分配类别;

FOR each T_attributelist 中的属性

执行该属性上的一个划分，计算此次划分的GINI系数;

(2) N的测试属性test_attribute=T_attributelist中具有最小GINI系数的属性;

(3) 划分T得T1、T2两个子集;

(4) 调用cartformtree(T1);

(5) 调用cartformtree(T2);

CART剪枝算法描述：

（1）从生成算法产生的决策树低端不断剪枝，直到根节点，形成子树序列；

将alpha从小增大，得到一系列的alpha区间，对应子树序列，序列中子树嵌套。

（2）通过交叉验证法在独立的验证数据集上对子树序列测试，选择最优子树，同时alpha也确定了。

以鸢尾花数据集为例，使用cart算法，得到决策树：

CART算法的鸢尾花例(R中的包)：

</pre><pre name="code" class="plain">#tree包中的cart算法library(tree)#布局，mar表示图下，左，上，右的边缘宽度，mgp表示标题和坐标轴的margin，cex为字号oldpar = par(mar=c(3,3,1.5,1),mgp=c(1.5,0.5,0),cex=1)ir.tr = tree(Species~Petal.Width+Petal.Length+Sepal.Length+Sepal.Width, iris)ir.trplot(ir.tr)text(ir.tr)

对于决策树的构建，R中比较多的是函数包rpart中的函数rpart与prune。

决策树是一个弱分类器，没有办法完全分类，这时将弱学习器组合在一起的，根据多数投票法得到的强学习器，ada boost,bagging，random forest。