数据预处理与关联规则挖掘

来源：互联网发布：安可公关知乎编辑：程序博客网时间：2024/06/02 10:29

数据挖掘

数据预处理

数据清理

注：数据清理基于当前数据，所以一般无法改善推荐算法效果一般用于研究

1. 遗漏值：最常用为方法6

1）忽略元组

2）人工填写遗漏

3）使用全局常量填充

4）使用属性平均值填充

5）使用与给定元组属同一类的所有样本的平均值

6）使用最可能的值填充

2. 噪音数据

1）分箱

2）聚类

3）计算机和人工检查

4）回归（多线性回归）

3. 不一致数据

数据集成

1. 检测属性间的冗余（）相关性太大（正或负相关）的冗余属性被去除

2. 元组冗余清除

3. 数值冲突检测处理（不同计量单位等）

数据变换

1. 平滑去噪（分箱聚类回归）

2. 聚集（数据汇总）日销售额=》月销售额

3. 数据泛化概念分层

4. 规范化属性数据按比例缩放

5. 属性构造添加新的属性（height*width=>area）

数据规约

1. 数据方聚集

2. 维规约属性子集选择、决策树

3. 数据压缩小波变换、主要成分分析

4. 数值压缩线性回归直方图聚类

5. 离散化与概念分层

关联规则挖掘

mahout好像少这个

概念：

置信度：confidence（A=>B） =包含A和B的元组数/包含A的元组属

支持度：support（A=>B）=包含A和B的元组属/元组总数

概念分层：定义一组由底层概念到高层概念集得映射用于去除冗余信息

频繁集：满足最小支持度的项集

强关联规则根据频繁集挖掘

Apriori算法：

连接->剪枝循环（从事务中提取单子项集->选择满足最小支持度得子项集->生成更大的子项集->剪除不满足最小支持度得子项集->生成更大的子项集->……）

改进：

1. 基于散列的技术：生成单项集得时候生成2项集然后直接删除不满足最小支持度得

2. 事务压缩：不包含任何K项集得事务不包含任何K+1项事务集（删除的不是项是事务！）

3. 划分：划分事务为n部分找出每个部分的频繁项集，在候选项集中查找全局频繁项集

4. 选样：类似于划分但是只有一小部分参与第一步的查找频繁项集其他的只做验证（会丢失有效解）

5. 动态项集计数

FP树：

FP树挖掘

1. 创建树的根节点

2. 对每个单项集支持度排序

3. 每一个事务按照排序好的项集顺序进行处理并创建一个分支

1）尽量利用共享前缀

2）修改叶节点的支持度值

4. 对2中生成的单项集逆序处理

5. 生成满足支持度得频繁子集

多维管理规则

1. 递减支持度

2. 逐层独立

3. 层交叉单项过滤

4. 层交叉K-项集过滤（受控的层交叉单项过滤=）基于传递阀值=》常用）

基于时序的关联规则