【03】 机器学习(Standford)笔记 L03

来源:互联网 发布:南风知我意1七微书包网 编辑:程序博客网 时间:2024/05/19 00:36

【Machine Learning】L3 笔记

1 多项式拟合

多个特征之后的情况,拟合不好就会出现underfitting 和 overfitting

2 参数型学习算法与非参数型学习算法

3 概率角度解释线性回归中参数θ求解

参数估计:极大似然估计法

4 Classification 二元分类器 y = {0,1}

第一个分类算法 Logistic regression

感知器算法


1、多项式拟合

特征不止一个的时候,或者为了更好的预测拟合,我们需要更多的特征(可以自己构建特征).要选取合理的特征,多了不行,少了也不行,要确保算法准确。


2 参数型学习算法与非参数型学习算法

Parametric Learning Algorithm

θ’s - find set of Parameter,要求解参数的值

Non-Parametric Learning Algorithm

no of Parameters grows with m(样本数)

【经典算法】:locally weighted linear regression (LWR) 局部加权回归(LOESS)

(此算法Andrew说已经应用在直升机的控制中,简单的规则可以制造不同复杂的行为现象【模型思维中的生命游戏-细胞自动机】)

  • assuming there is sufficient training data, makes the choice of features less critical
  • 算法思想:简单的说,对于复杂的类似于多项式的函数数据,我们通过选择一个数据点附近的数据来进行拟合,Fit θ to minimise the Cost Function J(θ),只不过这里要加入权值,这个权值是e的指数函数,w(i) = exp(-(x(i)-x)^2/(2·T^2));这个T是控制参数,如同高斯分布中的σ.【也就是在LR线性回归中计算J(θ)中加入权值,而计算的样本数据也是一个确定数据点附近的数据】这样就可以把总的数据分割,一段一段地来拟合,使得拟合的效果好。

Parametric Learning Algorithm and Non-Parametric LA
  • Para LA 得到固定的有限的参数θ, 将这些参数保留下来, 然后进行预测。(之后就再也用不到训练样本了,然后可以不用保留训练样本了)
  • Non-Para LA:相反,因为我们是局部计算,所以要保留训练样本,在每一次预测的时候,都要根据实际预测的点来选择样本,进行参数θ的计算。

3 概率角度解释线性回归中参数θ求解

极大似然估计法:(参数估计法)

  • 注意似然函数要是递增的
  • 各个参数要是独立同分布的

    这里解释了Least-squares regression中为什么要使Cost Function最小化,原来是为了使似然函数最大,得到θ的参数估计值。

    【Note】


4 Classification 二元分类器

二项分布

Logistic Function/ Sigmoid Function

  • 为什么选择这个函数,将在下讲L4中讲到

    Hypothesis h


    为什么不同的迭代,结果是一样的呢?下讲中的广义线性模型(GLM)会讲到。
    图中推导

5 感知器算法


1、Probabilistic interpretation(似然函数,极大似然估计)

2、Locally Weighted linear regression

3、二元分类:Logistic Regression

4、感知器算法The Perceptron Learning Algorithm


感谢Andrew老师的精彩课程

2014.12.30

0 0