统计学习--学习笔记(二)
来源:互联网 发布:预算计价软件 编辑:程序博客网 时间:2024/06/11 20:58
1.2监督学习
监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输入做出一个好的预测(注意:这里的输入、输出是指某个系统的输入与输出, 与学习的输入、输出不同)
1.输入空间、特征空间与输出空间
在监督学习中,将输入所有可能取值的集合称为输入空间;将输出所有可能取值的集合称为输出空间。
每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示。这时,所有特征向量存在的空间称为特征空间(feature space)。特征空间的每一维对应于一个特征。
有时假设输入空间与特征空间为相同的空间,对它们不予区分;
有时假设输入空间与特征空间为不同的空间,将实例从输入空间映射到特征空间。
模型实际上都是定义在特征空间上的。
输入实例x的特征向量记作:
监督学习从训练数据集合中学习模型,对测试数据进行预测,训练数据由输入(或特征向量)与输出对组成,训练集通常表示为:
测试数据也由输入与输出对组成,输入与输出对又称为样本(sample)或样本点。
预测任务的名称:
输入变量与输出变量均为连续变量的预测问题称为回归问题;
输出变量为有限个离散变量的预测问题称为分类问题
输入变量与输出变量均为变量序列的预测问题称为标注问题
2.联合概率分布
统计学习假设数据存在一定的统计规律,X和Y具有联合概率分布的假设就是监督学习关于数据的基本假设。
3.假设空间
监督学习的模型可以是概率模型或非概率模型,由条件概率分布或决策函数表示,随具体的方法而定,对具体输入进行相应的输出预测时,写作
。
1.2.2问题的形式化
监督学习利用训练数据集学习到一个模型,再用模型对测试样本集进行预测。
由于在这个过程中需要训练数据集,而数据集往往是人工给出的,所以称为监督学习。
1.3统计学习三要素
方法 = 模型 + 策略 + 算法
可以说,构建一种统计学习方法就是确定具体的统计学习三要素。
1.3.1模型
统计学习首先要考虑的问题是学习什么样的模型,再监督学习过程中,模型就是所要学习的条件概率分布或决策函数。
1.3.2策略
有了模型的假设空间,统计学接着需要考虑的书按照什么样的准则学习或选择最优的模型,统计学习的目标在于从假设空间中选取最优模型。
首先引入损失函数和风险函数的概念。损失函数度量模型一次预测的好坏,风险函数度量的平均意义下的模型预测的好坏。
1.
损失函数:
风险函数:
2经验风险最小化
用经验风险估计期望风险
在假设空间、损失函数以及训练数据集确定的情况下,经验风险函数式(1.10)就可以确定。经验风险最小化(empirical minimization ,ERM)的策略认为,经验风险最小化的模型是最优的模型,根据这个策略,按照经验风险最小化求最优模型就是求解最优化问题:
当样本足够大时,经验风险最小化能保证有很好的学习效果,在现实中被广泛采用。
结构风险最小化
这样,监督学习问题就变成了经验风险或结构风险函数的最优化问题(1.11)和(1.13)。
这时经验或结构风险函数是最优化的目标函数。
1.1.3 算法
算法是指学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间选取最优模型,最后需要考虑用什么样的计算方法求解最优模型。
这时,统计学习问题归结为最优化问题,统计学习的算法成为最优化问题的算法。
如果最优解问题有显式的解析解,这个最优化问题就比较简单。但通常解析解不存在,这就需要用数值计算的方法求解。
如何保证找到全局最优解,并使得求解的过程非常高效,就成为一个重要问题。
统计学习可以利用已有的最优化算法,有时也需要开发独自的最优化算法。
统计学习方法之间的不同,主要来自其模型、策略、算法的不同。确定了模型、策略、算法,统计学习的方法也就确定了。这也就是将其称为统计学习的三要素的原因。
- 统计学习--学习笔记(二)
- 统计学习笔记(二)感知机
- 《统计学习方法》学习笔记二
- Wireshark使用方法(学习笔记二——查询统计)
- Wireshark使用方法(学习笔记二——查询统计)
- Wireshark使用方法(学习笔记二——查询统计)
- Wireshark使用方法(学习笔记二——查询统计)
- Python学习笔记(二)列表统计词频
- 统计学习方法笔记(二)感知机学习
- 《统计学习方法》学习笔记(二):感知机
- Python学习笔记(二)列表统计词频
- Wireshark使用方法(学习笔记二——查询统计)
- oracle数据库学习笔记(二)之分组统计查询
- shell学习笔记二则:统计空间
- 统计学习(二):统计推断
- 统计学习笔记(一)
- 统计学习---学习笔记(一)
- 统计学习--学习笔记(三)
- 断点续传 ASIHTTPRequest
- poj1200 Crazy Search,字符串hash or 后缀数组
- 陈老师的多校联合20140818||Uvalive 5683 模拟
- Interactive Machine Translation
- HDU 1860 统计字符
- 统计学习--学习笔记(二)
- 堆和栈
- X264 CBP
- 杭电1248 寒冰王座
- java操作mysql的增删改查
- c++ vector 用法
- 实现富文本编辑--RichFaces学习(一){可能没有二}
- hdu 4925 Apple Tree(2014 Multi-University Training Contest 6)
- Javascript 面向对象编程