统计学习--学习笔记(二)

来源:互联网 发布:预算计价软件 编辑:程序博客网 时间:2024/06/11 20:58

1.2监督学习

监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输入做出一个好的预测(注意:这里的输入、输出是指某个系统的输入与输出, 与学习的输入、输出不同)

1.输入空间、特征空间与输出空间

在监督学习中,将输入所有可能取值的集合称为输入空间;将输出所有可能取值的集合称为输出空间。

每个具体的输入是一个实例instance),通常由特征向量feature vector)表示。这时,所有特征向量存在的空间称为特征空间feature space)。特征空间的每一维对应于一个特征。

有时假设输入空间特征空间为相同的空间,对它们不予区分;

有时假设输入空间特征空间为不同的空间,将实例从输入空间映射到特征空间。

模型实际上都是定义在特征空间上的。

 

 

输入实例x的特征向量记作:

 

监督学习从训练数据集合中学习模型,对测试数据进行预测,训练数据由输入(或特征向量)与输出对组成,训练集通常表示为:

 

测试数据也由输入与输出对组成,输入与输出对又称为样本(sample)或样本点。

预测任务的名称:

输入变量与输出变量均为连续变量的预测问题称为回归问题

输出变量为有限个离散变量的预测问题称为分类问题

输入变量与输出变量均为变量序列的预测问题称为标注问题

2.联合概率分布

统计学习假设数据存在一定的统计规律,XY具有联合概率分布的假设就是监督学习关于数据的基本假设。

3.假设空间

监督学习的模型可以是概率模型或非概率模型,由条件概率分布决策函数表示,随具体的方法而定,对具体输入进行相应的输出预测时,写作

1.2.2问题的形式化

监督学习利用训练数据集学习到一个模型,再用模型对测试样本集进行预测。

由于在这个过程中需要训练数据集,而数据集往往是人工给出的,所以称为监督学习。

 

 

 

1.3统计学习三要素

方法 模型 策略 算法

可以说,构建一种统计学习方法就是确定具体的统计学习三要素。

1.3.1模型

统计学习首先要考虑的问题是学习什么样的模型,再监督学习过程中,模型就是所要学习的条件概率分布决策函数

 

 

 

1.3.2策略

有了模型的假设空间,统计学接着需要考虑的书按照什么样的准则学习或选择最优的模型,统计学习的目标在于从假设空间中选取最优模型

 

首先引入损失函数和风险函数的概念。损失函数度量模型一次预测的好坏,风险函数度量的平均意义下的模型预测的好坏

1.

损失函数:

 

 

风险函数:

 

 

 

2经验风险最小化

 

用经验风险估计期望风险

 

在假设空间、损失函数以及训练数据集确定的情况下,经验风险函数式(1.10)就可以确定。经验风险最小化(empirical minimization ERM)的策略认为,经验风险最小化的模型是最优的模型,根据这个策略,按照经验风险最小化求最优模型就是求解最优化问题:

 

当样本足够大时,经验风险最小化能保证有很好的学习效果,在现实中被广泛采用。

 

 

 

 

 

 

结构风险最小化

 

 

 

这样,监督学习问题就变成了经验风险或结构风险函数的最优化问题(1.11)和(1.13)。

这时经验或结构风险函数是最优化的目标函数

 

1.1.3 算法

算法是指学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间选取最优模型,最后需要考虑用什么样的计算方法求解最优模型。

这时,统计学习问题归结为最优化问题,统计学习的算法成为最优化问题的算法。

如果最优解问题有显式的解析解,这个最优化问题就比较简单。但通常解析解不存在,这就需要用数值计算的方法求解。

如何保证找到全局最优解,并使得求解的过程非常高效,就成为一个重要问题。

统计学习可以利用已有的最优化算法,有时也需要开发独自的最优化算法。

 

统计学习方法之间的不同,主要来自其模型、策略、算法的不同。确定了模型、策略、算法,统计学习的方法也就确定了。这也就是将其称为统计学习的三要素的原因。

0 0
原创粉丝点击