人工智能算法—决策树

来源：互联网发布：marc dorcel 淘宝编辑：程序博客网时间：2024/06/10 08:31

文/腾讯soso林世飞

决策树方法最早产生于上世纪60年代，到70年代末。由J RossQuinlan提出了ID3算法，此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。C4.5算法在ID3算法的基础上进行了改进，对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大改进，既适合于分类问题，又适合于回归问题

这里介绍其基本原理和一个实验例子。

先介绍2个算法：

算法一：熵（entropy）

熵（entropy）指的是体系的混乱的程度，当我们尝试把混合集合A={B1,B2,C1,C2…..} （其中Bx表示一个类别的元素，Cx表示另外一个）划分为2个集合 M、N（即决策树的2个分支时候），比较好的划分是 M 里面都是 Bx，N里面都是Cx，这时候我们需要一个函数对划分以后的集合进行评估，看看是否纯度够“纯”。如果很纯，很有序，熵就是0.

理解该公式： p(xi) 越平均，系统约混乱，如果系统只有2个元素x1、x2，x1出现概率是0.5，x2出现概率也是0.5，即p(x1) =0.5 p(x2) =0.5 ，这时公式计算结果为1； p(xi)如果比较不平均，比如p(x2) =1，那就是系统很确定，一点都不混乱，肯定是x2构成，这时熵计算结果就是0.

这个规律刚刚好是 log函数特点过（1，0）这个点（见下图），我想这个就是克劳德·艾尔伍德·香农设计这个公式选择log函数的道理。

用python 实现就是：

def entropy(l):

from math import log

#函数编程语法，定义一个函数

log2=lambdax:log(x)/log(2)

total=len(l)

counts={}

#统计每个类型出现格式

for item in l:

counts.setdefault(item,0)

counts[item]+=1

ent=0

for i in counts:

p=float(counts[i])/total #计算概率

ent-=p*log2(p) #熵计算

return ent

算法二：除了熵，还有一个衡量一个集合是否混乱的方法叫 Gini Impurity （基尼不纯度）方法。

公式如下：

公式基本上也符合以上熵的规律：集合越纯值越小，如果只有2个元素时候，每个元素出现概率就是0.5，这时 I = 0.5*0.5 +0.5*0.5 =0.5

0.5*0.5 # 我的理解是 K1（出现概率0.5）被当做其他Kx的概率（出现概率0.5）

Python实现如下：

#去重统计每个出现次数

defuniquecounts(rows):

results={}

for row in rows:

# The result is the last column

r=row[len(row)-1]

if r not in results: results[r]=0

results[r]+=1

return results

defginiimpurity(rows):

total=len(rows)

counts=uniquecounts(rows)

imp=0

for k1 in counts:

# k1 的概率

p1=float(counts[k1])/total

for k2 in counts:

if k1==k2: continue

# k2 的概率

p2=float(counts[k2])/total

# 我的理解是 K1 被当做其他Kx的概率

imp+=p1*p2

return imp

现在开始介绍决策树：

决策树树节点定义：

classdecisionnode:

def __init__(self,col=-1,value=None,results=None,tb=None,fb=None):

self.col=col #第几个列即因子

self.value=value #判断值

self.results=results #结果集合

self.tb=tb #左右树

self.fb=fb

#构建决策树的过程，scoref 就是前面衡量集合混乱程度的2个算法的函数之一

defbuildtree(rows,scoref=entropy):

if len(rows)==0: return decisionnode()

current_score=scoref(rows)

# 最佳划分

best_gain=0.0

best_criteria=None

best_sets=None

#列数

column_count=len(rows[0])-1

for col in range(0,column_count):

column_values={}

# 统计每一列可能的值

for row in rows:

column_values[row[col]]=1

#尝试每一列每一种值作为划分集合

for value in column_values.keys():

(set1,set2)=divideset(rows,col,value)

# Information gain 信息增益？？我的理解是加权计算目前的得分，即纯度、混乱度

p=float(len(set1))/len(rows)

gain=current_score-p*scoref(set1)-(1-p)*scoref(set2)

if gain>best_gain and len(set1)>0and len(set2)>0:

best_gain=gain

best_criteria=(col,value)

best_sets=(set1,set2)

# 创建子分支

if best_gain>0:

trueBranch=buildtree(best_sets[0])

falseBranch=buildtree(best_sets[1])

returndecisionnode(col=best_criteria[0],value=best_criteria[1],

tb=trueBranch,fb=falseBranch)

else:

# 如果是叶子节点则统计这个分支的个数

return decisionnode(results=uniquecounts(rows))

#根据某列值划分rows 为 2个集合

#or nominal values

defdivideset(rows,column,value):

# Make a function that tells us if a row isin

# the first group (true) or the second group(false)

split_function=None

if isinstance(value,int) or isinstance(value,float):

split_function=lambdarow:row[column]>=value

else:

split_function=lambdarow:row[column]==value

# Divide the rows into two sets and returnthem

set1=[row for row in rows ifsplit_function(row)]

set2=[row for row in rows if notsplit_function(row)]

return (set1,set2)

#利用一个已知树决策过程

defclassify(observation,tree):

if tree.results!=None:

return tree.results

else:

v=observation[tree.col]

branch=None

if isinstance(v,int) orisinstance(v,float):

if v>=tree.value: branch=tree.tb

else: branch=tree.fb

else:

if v==tree.value: branch=tree.tb

else: branch=tree.fb

return classify(observation,branch)

时间抽取是 web 页面分类、抽取时候一个很重要的课题。通常一个页面将包含多个可能代表该页面发表时间的字符串，如果判断一个包含数字的字符串是否是一个时间串，往往要考虑很多因素，比如，整个过程会比较繁琐。

这里尝试利用1099 页面分析处理得到的162个时间串的各个属性，利用决策树进行学习，最终生成一个决策树，该决策树可以新的时间串，根据其属性进行判断。

以下是实验效果:

其中每一列代表其属性值，比如第一列含义是该字符串是否出现在链接中，是为ture。

生成决策树：

>>>datas=[ line.split('|')[1:] for line in file('result3') ]

>>>tree= treepredict.buildtree(datas)

对某个时间2010-05-27 00:00:00 提取的各个特征通过这个决策树判断是否是时间

2010-05-2700:00:00|false|false|false|false|true|false|false|false|8825|0.971809|2|8|0|false|false|0

结论是：不是时间

>>>treepredict.classify(['false', 'false', 'false', 'false', 'true', 'false', '

false','false', 'false', 'false', 'false', 'false', 'false', '0', '7754','249',

'0.967919', '0.031082', '0', '0', '0', '0','0', '2', '-1', '0', '8', '0', '0',

'0'],tree)

{'0/n':30}

我们可以查看下这个机器学习产生的决策树：

局部：

从上图可以看到 8 、10、11 列值对于该问题决策—该串是否是时间串起着关键作用，虽然我们可能考虑很多因素、但以下几列起着关键作用，具体含义是块开始、正文的位置关系、字符串长度等。

这个从实验数据集来看也比较正常，因为这个数据集是我的实验数据，很多列值没有精确计算，基本雷同，变化不大。换句话说，对最后决策其作用都是那些变化比较大的列项。

以上是关于决策树原理实现和工程利用的一个例子的学习笔记，对于时间抽取是否适合利用决策树来处理，目前还没有定论和应用，这里只是利用他来帮助我们理解在众多因素参与决策时候，哪些因素关键些，较好解释了我们决策过程，每个因子起到作用，比如有的因子其实不起作用，至少在我们的数据集中。

决策树在工程实际利用时候，可能还要面临树裁剪 (Decision Tree Pruning)、数据项某些维度数据缺少的问题。

什么时候使用决策树，本身就是一个问题。

更多内容参考

http://wiki.mbalib.com/wiki/%E5%86%B3%E7%AD%96%E6%A0%91