《统计学习方法》学习笔记(一):统计学习方法概论
来源:互联网 发布:java string 的split 编辑:程序博客网 时间:2024/06/11 22:54
最近开始研究机器学习,初步接触了几种常见的机器学习方法,在学习过程中,发现这些算法运用了大量的统计知识,为了对算法有更深刻的认识,在网上搜到了李航博士写的《统计学习方法》非常适合机器学习入门学习,于是在学校图书馆借来学习,接下来是我对本书每章节的个人笔记,边学习边总结,有一起学习的可以讨论。
第一章介绍的是统计方法的常用预备知识,是本书内容的基础。
统计学习
统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习。
我们从统计学习的概念中提取关键点:1.基于数据;2.构建模型;3由模型预测数据。就是这三个步骤构成了我们的学习过程,在已有的数据中提取数据的特征,这些特征具有一定的规律性(就像小学时,判学习鸟时,有羽毛等等),接下来做的就是去发现这些规律,对于规律我们可以总结成文字,而对于计算机来说,就需要构建符合规律的模型(这就是需要用数学语言了),那么这个规律正确性是否屡试不爽呢?找些样本验证一下呗,顺带着可以调整一下,进过一番“磨合“,开始运行,找来未知数据进行预测了,达到目的。这就是整个学习的过程。
统计学习包括:监督学习、半监督学习、强化学习以及半监督学习(前面的文章对上述做过介绍,这里不再介绍),本书主要讨论监督学习。下面是监督学习的模型,其学习目的为在输入和输出中找到一个映射函数
统计学习三要素
统计学习方法分为三部分: 方法=模型+策略+算法
1、模型
在监督学习过程中,模型就是所要学习的条件概率或决策函数。模型的假设空间含有所有可能的条件概率
2、策略
得到模型的假设空间
0-1损失函数
平方损失函数:
绝对损失函数:
对数损失函数:
损失函数期望:
即模型
学习的目的:选择期望风险最小的模型,然而由于
经验风险:
ERM:
其中,H为假设空间,当模型为条件概率分布,损失函数为对数损失函数时,ERM等价于极大似然估计(Maximum Liklihood Estimation),适用于样本容量大时,而对于小样本时易产生过拟合。
结构风险:
添加正则项为防止过拟合现象,其中
从而监督学习问题转化为,求解SRM和ERM问题。
3、算法
选择出最优模型,接下来就是根据求解模型从而得到全局最优解(有时由于目标函数求解复杂度,只能近似求解局部最优值)。
总结:其实就是三步,确定用什么模型(如:是线性问题啊,各种线性方程:
检验模型是否合理,我们不仅要使模型对训练样本的样本误差小,而且还要对未知数据正确预测,防止模型过度复杂,产生过拟合现象,提高模型的泛化能力;对模型进行验证一般采用:简单交叉验证、S折交叉验证、留一交叉验证;
- 《统计学习方法》学习笔记(一):统计学习方法概论
- 统计学习方法(一)统计学习方法概论
- 学习笔记一:统计学习方法概论
- 统计学习方法学习笔记:概论
- 《统计学习方法》学习笔记-概论
- 统计学习方法笔记(一)概论
- 《统计学习方法》学习笔记(一)——统计学习方法概论
- 统计学习方法笔记 -- 概论
- 统计学习方法学习笔记1:统计学习方法概论
- 统计学习方法笔记--第一章统计学习方法概论
- 统计学习方法笔记1--统计学习方法概论
- 统计学习笔记(1)——统计学习方法概论
- 统计学习笔记(1)——统计学习方法概论
- 统计学习笔记(1)——统计学习方法概论
- 统计学习笔记(1)——统计学习方法概论
- 统计学习笔记(1)——统计学习方法概论
- 统计学习笔记(1)——统计学习方法概论
- 统计学习方法笔记(1)——统计学习方法概论
- Java内功提升之变量与常量
- 关于JAVA中的Random()获取随机数
- java生成图片
- log4j.properties的基本配置
- 16个OS X快捷键小技巧
- 《统计学习方法》学习笔记(一):统计学习方法概论
- 如何用c语言产生一定范围内的随机数?
- c3p0连接池,当数据源不可用时 自动跳过
- jsp是如何执行的
- OC学习篇之---类的初始化方法和点语法的使用
- 设计模式六大原则
- Play framework 1.2.3 Jobs定时任务、异步任务、引导任务、触发任务、关闭任务
- 原生 MySQL API--查询数据的写法
- python和numpy的版本、安装位置