统计学习--学习笔记（二）

来源：互联网发布：预算计价软件编辑：程序博客网时间：2024/06/11 20:58

1.2监督学习

监督学习的任务是学习一个模型，使模型能够对任意给定的输入，对其相应的输入做出一个好的预测（注意：这里的输入、输出是指某个系统的输入与输出，与学习的输入、输出不同）

1.输入空间、特征空间与输出空间

在监督学习中，将输入所有可能取值的集合称为输入空间；将输出所有可能取值的集合称为输出空间。

每个具体的输入是一个实例（instance），通常由特征向量（feature vector）表示。这时，所有特征向量存在的空间称为特征空间（feature space）。特征空间的每一维对应于一个特征。

有时假设输入空间与特征空间为相同的空间，对它们不予区分；

有时假设输入空间与特征空间为不同的空间，将实例从输入空间映射到特征空间。

模型实际上都是定义在特征空间上的。

输入实例x的特征向量记作：

监督学习从训练数据集合中学习模型，对测试数据进行预测，训练数据由输入（或特征向量）与输出对组成，训练集通常表示为：

测试数据也由输入与输出对组成，输入与输出对又称为样本（sample）或样本点。

预测任务的名称：

输入变量与输出变量均为连续变量的预测问题称为回归问题；

输出变量为有限个离散变量的预测问题称为分类问题

输入变量与输出变量均为变量序列的预测问题称为标注问题

2.联合概率分布

统计学习假设数据存在一定的统计规律，X和Y具有联合概率分布的假设就是监督学习关于数据的基本假设。

3.假设空间

监督学习的模型可以是概率模型或非概率模型，由条件概率分布或决策函数表示，随具体的方法而定，对具体输入进行相应的输出预测时，写作

。

1.2.2问题的形式化

监督学习利用训练数据集学习到一个模型，再用模型对测试样本集进行预测。

由于在这个过程中需要训练数据集，而数据集往往是人工给出的，所以称为监督学习。

1.3统计学习三要素

方法 = 模型 + 策略 + 算法

可以说，构建一种统计学习方法就是确定具体的统计学习三要素。

1.3.1模型

统计学习首先要考虑的问题是学习什么样的模型，再监督学习过程中，模型就是所要学习的条件概率分布或决策函数。

1.3.2策略

有了模型的假设空间，统计学接着需要考虑的书按照什么样的准则学习或选择最优的模型，统计学习的目标在于从假设空间中选取最优模型。

首先引入损失函数和风险函数的概念。损失函数度量模型一次预测的好坏，风险函数度量的平均意义下的模型预测的好坏。

损失函数：

风险函数：

2经验风险最小化

用经验风险估计期望风险

在假设空间、损失函数以及训练数据集确定的情况下，经验风险函数式（1.10）就可以确定。经验风险最小化（empirical minimization ，ERM）的策略认为，经验风险最小化的模型是最优的模型，根据这个策略，按照经验风险最小化求最优模型就是求解最优化问题：

当样本足够大时，经验风险最小化能保证有很好的学习效果，在现实中被广泛采用。

结构风险最小化

这样，监督学习问题就变成了经验风险或结构风险函数的最优化问题（1.11）和（1.13）。

这时经验或结构风险函数是最优化的目标函数。

1.1.3 算法

算法是指学习模型的具体计算方法。统计学习基于训练数据集，根据学习策略，从假设空间选取最优模型，最后需要考虑用什么样的计算方法求解最优模型。

这时，统计学习问题归结为最优化问题，统计学习的算法成为最优化问题的算法。

如果最优解问题有显式的解析解，这个最优化问题就比较简单。但通常解析解不存在，这就需要用数值计算的方法求解。

如何保证找到全局最优解，并使得求解的过程非常高效，就成为一个重要问题。

统计学习可以利用已有的最优化算法，有时也需要开发独自的最优化算法。

统计学习方法之间的不同，主要来自其模型、策略、算法的不同。确定了模型、策略、算法，统计学习的方法也就确定了。这也就是将其称为统计学习的三要素的原因。

0 0