数据挖掘学习笔记——十大算法之决策树算法、逻辑回归概述

来源：互联网发布：窗帘效果图软件编辑：程序博客网时间：2024/06/11 19:48

数据挖掘——分类

分类：有监督的学习
聚类：无监督的学习

分类过程：使用类标签已知的样本去建立分类函数或分类模型，应用分类模型能把数据库中的类标签未知的数据进行归类。
分类二阶段：分类是过程，预测（决策变量是类标签，此处为广义预测）是目的。

分类算法：
决策树、逻辑回归、神经网络、支持向量机、贝叶斯分类、KNN（K近邻）、随机森林。

分类应用：流失预测、精确营销、客户获取、个性偏好、信用分析、欺诈预警。

应用原理：只要有类标签已知的样本，就可以拿该样本训练，找一个对照组，建立分类模型，类标签未知的数据进行归类、预测。

分类算法一：决策树——划分子结点、回溯到根结点
决策树是描述分类过程的一种数据结构，从上端的根节点开始，每一层节点依照某一属性值向下分为子节点，待分类的实例在每一节点处与该节点相关的属性值进行比较，根据不同的比较结果向相应的子节点扩展，这一过程在到达决策树的叶节点时结束。
从根节点到叶节点的每一条路径都对应着一条合理的规则，规则间各个部分（各个层的条件）的关系是合取关系。整个决策树就对应着一组析取规则。
决策树学习算法的最大优点是，它中以自主学习。在学习的过程中，不需要使用者了解过多背景知识，只需要对训练例子进行较好的标注，就能够进行学习。

决策树：由根节点开始，自上而下，每一层节点根据属性值分裂产生子节点，最后到叶结点终点。每一次分裂要选择属性，可以用不同属性划分时，选择划分后收益最大的属性划分。（信息增益法、）

决策树算法：ID3 /C5.0/CHAID/QUEST/C&R TREE

决策树拓展：单决策树、组合模型--bagging/boosting(adaboost)/随机森林

决策树算法理解
决策树分析原则：信息增益、信息增益率、
ID3增益计算缺点：ID3基于信息增益，它会有偏向于属性值很多的属性，需要做一个惩罚即需要引入分裂信息变量

决策树停止生长条件：
划分后类别纯度是100%；没法再划分了；设置叶子结点个数；

C4.5可处理缺失值

防止决策树过度拟合。。

决策树：
优点：可以生成可以理解的规则；健壮性好；能处理非线性关系
缺点：当类别太多时，错误可能就会增加的比较快；一般的算法分类时只根据一个字段来分类；泛化能力较差

分类算法二：逻辑回归

逻辑回归模型：定性变量回归，类似于线性回归，但是目标字段使用字符型字段而不是数值型字段。一旦生成模型，便可用于估计新记录属于某类的概率。概率最大的目标类被指定为该记录的预测输出值。

逻辑回归建模变量要求：类别变量亚变量化；变量与变量间相关性不能高；变量要求有单调性；变量变化范围尽量一致。
如何检验回归效果：统计量、实际分类效果
理解回归系数：回归系数不能绝对反映变量重要性，因为变量变量间存在多重共线性；
逻辑回归筛选变量：前进、后退、进入、逐步。。

逻辑回归
优点：泛化能力好，精确度高；能精确控制用户数量；
缺点：对数据要求高；多重共线性；不能处理复杂的用户特征

1 0