数据分析与数据挖掘 入门

来源:互联网 发布:窗帘效果图软件 编辑:程序博客网 时间:2024/06/11 09:48

数据分析:

使用统计方法对收集的大量数据进行分析、理解,达到业务分析的目标。数据分析是为了获取有用的信息和结论而对数据进行分析和研究的过程



数据分析师:专业基础+业务思维
首应该有一个业务的观点,业务分析才是目的和导向,数据分析只是一个手段、


数分工作内容:
描述发生了什么事----描述性报告:常规报表,即席查询,多维分析,警报。
为什么发生----探索性报告:统计分析
未来发展如何----预测性报告:预测和预测型 模型
如何决策----咨询性报告:优化


数据分析步骤:明确目的、数据收集、数据处理、数据分析、数据展现(业务解释)、报告(业务建议)


数据挖掘的商业理解——数据的理解、收集、对可用的数据进行评估、数据的准备、应用数据挖掘工具建立模型——模型评估——部署


业务和算法的结合
算法的理解和数据挖掘的过程
模型持续优化与应用


数据挖掘建模流程:问题理解——数据准备——模型的准备——模型建立——模型评估——模型固化
1. 业务敏感性,关注数据价值。
清楚地定义业务问题,认清数据挖掘的目的是挖掘的第一步;挖掘的最后结果有不可预见性;能够解决业务问题的算法就是好算法。


2.数据准备要确保数据的可用性和完整性:
数据提取(了解业务及数据库数据字段含义,提取建模所需数据);数据检验(数据来源检验,数据统计口径检验,数据统计错误检验);数据加工(缺失值处理,噪声处理,极值处理)。


3.筛选建模变量、根据模型要求进行数据变换
字段过滤(变异系数、标准差、最大最小类别数);
数据探索(数据分布、双变量分析、正态性检验);
相关性分析(卡方分析、方差分析、相关分析、自相关分析);
建模筛选(通过建模分析字段的重要性、决策树模型信息增益、逻辑回归模型,回归系数显著性检验);
数据变换(标准化变换、对数变换、正态变换)


4.根据数据类型不同可能需要对数据抽样分组;具体建模方法见挖掘模型和常见算法;根据算法 进行参数设置;利用工具模型计算


5.模型评估分三阶段:建模结果——建模阶段评估——评估结果;第一次优化——上线测试评估;第二次优化——模型上线——营销应用——营销应用评估——评估结果。
模型评估可以用收益图、提升图、评估指标(准确率:预测流失实际流失/预测流失客户数、覆盖率:预测流失实际流失/实际流失客户数、提升度:准确率/流失率,也就是使用模型后预测准确率的提升倍数)


6.模型固化:底层数据表、数据计算流(运行脚本)、前台应用层(封装建模过程)


数据分析与数据挖掘

数据挖掘:海量,前所未知,业务的可解释性,模型可操作性。
数据分析是一个大的概念,数据挖掘是数据分析的一小部分。
如何把数据转化为知识就是数据分析要解决的问题。



数据挖掘几大问题:

业务模型转化成数学模型,只有先把业务的问题想透彻
业务和算法的深入结合
算法的理解和数据挖掘的过程
模型的持续优化和应用


需要哪些数据:需要提哪些字段?这些数据能用吗?哪些数据对模型有用?
如何进行挖掘:不知选择算法?用什么工具?都有哪些流程?
结论怎么解释:结果是什么?结论好坏?结果展示了什么
让模型的价值显性化应用起来









0 0