极大似然法推导线性回归和逻辑回归代价（cost）函数

来源：互联网发布：telnet终端软件编辑：程序博客网时间：2024/06/08 12:36

问题描述

现使用在Andrew-ng教程上的房价与房间面积的例子。

假设房价与房间面积之间存在着线性关系 $H_{\Theta }(x)=\Theta ^{T}X$ 。

在实际的预测中，由于不可能找到所有影响房价的因素，因此无法完美准确的预测房价与房子大小的关系。我们勉为其难，只需要找到一个最近似的关系，所以只要把其他因素都看成是一些与房子大小无关的小噪声就好了。于是就得出： $y^{i}=H_{\Theta }(X^{i})+\varepsilon$ ，其中的 $\varepsilon$ 就是一些与房子大小无关的小噪声，可以用随机变量E来表示。这样就得到了： $y^{i}=H_{\Theta }(X)+E$ 。

极大似然法解释

对于给定的数据集，我们可以把其中的数据看做是事实，而我们要做的工作就是得到参数为了使我们的模型更加接近事实，也就使得由数据集中的X得到对应的Y这件事发生的可能性最大。也即对于数据集中的数据D (Y, X)，

的值最大。显然对于每一组（x，y）他们之间是独立的。因此 $P(D|X,\Theta )=\prod (P(y^{i}|x^{i},\Theta ))$ ，对于一组数据（x,y）， $P(y^{i}|x^{i},\Theta )=P(y^{i}|H_{\Theta }(x^{i})+E)=P(y^{i}-H_{\Theta }(x^{i})|E)$ 。

我们可以这样理解。对于一个输入X，事实表明结果为y，而通过我们的模型计算出的结果为 ${\color{Red} H_{\Theta }(x^{i})}$ ，我们的模型结果和实际结果之间的差距是由于存在着一个随机小噪声，而要使我们的模型结果与实际结果相同，那么这个随机小噪声应当取值为 ${\color{Red} E=y^{i}-H_{\Theta }(x^{i})}$ 。则 ${\color{Red} P(y^{i}|x^{i},\Theta )=P(E=y^{i}-H_{\Theta }(x^{i}))}$ 。

具体推导

现在我们假设这个随机小噪声满足N（0,1）的高斯分布。那么 $P(y^{i}|x^{i},\Theta )=P(E=y^{i}-H_{\Theta }(x^{i}))=\frac{1}{\sqrt{2\pi }\sigma }e^{-\frac{(x-\mu )^{2}}{2\sigma ^{2}}}=\frac{1}{\sqrt{2\pi }}e^{-\frac{(y^{i}-H_{\Theta }(x^{i}))^{2}}{2}}$ 。

则 $ln(P(D|X,\Theta ))=ln(\prod P(y^{i}|x^{i},\Theta ))=\sum (ln(\frac{1}{\sqrt{2\pi }})-\frac{(y^{i}-H_{\Theta }(x^{i}))^{2}}{2})$ 。

$ln(P(D|X,\Theta ))=ln(\prod P(y^{i}|x^{i},\Theta ))=\sum (ln(\frac{1}{\sqrt{2\pi }})-\frac{(y^{i}-H_{\Theta }(x^{i}))^{2}}{2})=C-\frac{1}{2}\sum(y^{i}-H_{\Theta }(x^{i}))^{2}$ ,其中 $C=m*ln(\frac{1}{\sqrt{2\pi }})$ 。

要使得上式最大，就需要使得 $\frac{1}{2}\sum(y^{i}-H_{\Theta }(x^{i}))^{2}%uFF09$ 最小，这和线性回归的代价函数 $J(\Theta )=\frac{1}{2m}\sum (y^{i}-H_{\Theta }(x^{i}))^{2}$ 所表达的含义是一致的。

逻辑回归推导

说明：

接着上面对于线性回顾代价函数的推导。由于逻辑回归的输出即为其概率。因此这里使用极大似然法相对于线性回归来说更容易理解。则： $P(y^{i}|x^{i},\Theta )=H_{\Theta }(x^{i})^{y^{i}}*(1-H_{\Theta }(x^{i}))^{1-y^{i}}$ ， $P(y|x,\Theta )=\prod_{i=1}^{m}H_{\Theta }(x^{i})^{y^{i}}*(1-H_{\Theta }(x^{i}))^{1-y^{i}}$ ，则

$ln(P(y|x,\Theta ))=\sum_{i=1}^{m}y^{i}ln(H_{\Theta }(x^{i}))+(1-y^{i})ln(1-H_{\Theta }(x^{i}))$ 。这里需要最大化上式，也就是最小化上式的相反数，即代价函数J。

0 0