数据挖掘学习笔记——十大算法之决策树算法、逻辑回归概述

来源:互联网 发布:窗帘效果图软件 编辑:程序博客网 时间:2024/06/11 19:48
数据挖掘——分类


分类:有监督的学习
聚类:无监督的学习


分类过程:使用类标签已知的样本去建立分类函数或分类模型,应用分类模型能把数据库中的类标签未知的数据进行归类。
分类二阶段:分类是过程,预测(决策变量是类标签,此处为广义预测)是目的。


分类算法:
决策树、逻辑回归、神经网络、支持向量机、贝叶斯分类、KNN(K近邻)、随机森林。


分类应用:流失预测、精确营销、客户获取、个性偏好、信用分析、欺诈预警。


应用原理:只要有类标签已知的样本,就可以拿该样本训练,找一个对照组,建立分类模型,类标签未知的数据进行归类、预测。


分类算法一:决策树——划分子结点、回溯到根结点
决策树是描述分类过程的一种数据结构,从上端的根节点开始,每一层节点依照某一属性值向下分为子节点,待分类的实例在每一节点处与该节点相关的属性值进行比较,根据不同的比较结果向相应的子节点扩展,这一过程在到达决策树的叶节点时结束。
从根节点到叶节点的每一条路径都对应着一条合理的规则,规则间各个部分(各个层的条件)的关系是合取关系。整个决策树就对应着一组析取规则。
决策树学习算法的最大优点是,它中以自主学习。在学习的过程中,不需要使用者了解过多背景知识,只需要对训练例子进行较好的标注,就能够进行学习。


决策树:由根节点开始,自上而下,每一层节点根据属性值分裂产生子节点,最后到叶结点终点。每一次分裂要选择属性,可以用不同属性划分时,选择划分后收益最大的属性划分 。(信息增益法、)


决策树算法:ID3   /C5.0/CHAID/QUEST/C&R TREE


决策树拓展:单决策树、组合模型--bagging/boosting(adaboost)/随机森林


决策树算法理解
决策树分析原则:信息增益、信息增益率、
ID3增益计算缺点:ID3基于信息增益,它会有偏向于属性值很多的属性,需要做一个惩罚即需要引入分裂信息变量


决策树停止生长条件:
划分后类别纯度是100%;没法再划分了;设置叶子结点个数;


C4.5可处理缺失值


防止决策树过度拟合。。



决策树:
优点:可以生成可以理解的规则;健壮性好;能处理非线性关系
缺点:当类别太多时,错误可能就会增加的比较快;一般的算法分类时只根据一个字段来分类;泛化能力较差




分类算法二:逻辑回归


逻辑回归模型:定性变量回归,类似于线性回归,但是目标字段使用字符型字段而不是数值型字段。一旦生成模型,便可用于估计新记录属于某类的概率。概率最大的目标类被指定为该记录的预测输出值。

逻辑回归建模变量要求:类别变量亚变量化;变量与变量间相关性不能高;变量要求有单调性;变量变化范围尽量一致。
如何检验回归效果:统计量、实际分类效果
理解回归系数:回归系数不能绝对反映变量重要性,因为变量变量间存在多重共线性;
逻辑回归筛选变量:前进、后退、进入、逐步。。

逻辑回归
优点:泛化能力好,精确度高;能精确控制用户数量;
缺点:对数据要求高;多重共线性;不能处理复杂的用户特征

1 0
原创粉丝点击