Standford机器学习 线性回归Cost Function和Normal Equation的推导

来源:互联网 发布:3g网络速度 编辑:程序博客网 时间:2024/06/09 20:29

1.线性回归CostFunction推导:

              在线性回归中,Cost Function是,关于这个公式的推导,首先由一个假设,其中满足高斯分布,.

那么根据得出在这里,把看成是随机变量,那么服从高斯分布,,对于给定的Xtheta要估计y的分布是怎么样的,极大似然估计函数为:

 

 

 

 

                     就是使得上式中的最小,即这个式子就是线性回归中的CostFunction J(theta),梯度下降的最终目标即是要最小化这个函数。

 

2. 线性回归中的NormalEquation的推导

          Andrew Ng讲的推导过程有点复杂,不知道他的思维过程是怎么样的。下面我用线性代数的方法来推导下NormalEquation

通常给定一个线性方程,要满足这个方程有解的条件是向量y在X的列向量张成的空间中。另外,对X的列向量进行线性变换即,得到的向量一定是X的列空间中的。

现在这个问题中,样本的输入可以组成一个矩阵,现在要求解,找到这样的一个,很明显,在大多数情况下这个方程是没有解的,原因是向量y不一定在X的列向量空间中。最小二乘法就是要在X的列向量空间中找到一个向量 ,使得这个向量和向量y的error最小。,即,请看下图:

 

        很明显,error最小的情况是找到y在X的列空间中的投影,它们的差值是最小的,那么就是我们要求解的,而且这个方程必定有解,那么如何找到这个投影呢?

        由于向量error和X的列空间是垂直的,所以error和X的所有列向量垂直,,ci是X的每一个列向量,所以,表示成矩阵的形式

 

         所以,所以可以推导出,X不是一个nbyn的矩阵,所以不能写成

 

其中可逆的充要条件是X的列向量不相关,这个可以自己推导下。所以在特征选取的时候不能选择一些线性相关的特征。

 

Ps:上面的图太难看了,请见谅,不知道有没有好点的画图软件

 

原创粉丝点击