逻辑回归分类器(Logistic Regression Classifier)

来源：互联网发布：友价房产源码编辑：程序博客网时间：2024/06/11 10:20

Logistic regression （逻辑回归）是当前业界比较常用的机器学习方法，用于估计某种事物的可能性，也用来进行分类。

在分类的情形下，经过学习之后的LR分类器其实就是一组权值w0,w1,...,wm.
当输入测试样本集中的测试数据时，这一组权值按照与测试数据线性加和的方式，求出一个z值：

z = w0+w1*x1+w2*x2+...+wm*xm。 ① （其中x1,x2,...,xm是某样本数据的各个特征，维度为m）
之后按照sigmoid函数的形式求出：

σ(z) = 1 / (1+exp(z)) 。②

由于sigmoid函数的定义域是(-INF, +INF),而值域为(0, 1)。因此最基本的LR分类器适合于对两类目标进行分类。该sigmoid函数看成样本数据的概率密度函数，每一个样本点，都可以通过上述的公式①和②计算出其概率密度。

则LR分类器的关键问题就是求出这一组权值w0,w1,...,wm。这需要涉及到极大似然估计MLE和优化算法的概念。

一、逻辑回归模型

何为回归：回归其实就是对已知公式的未知参数进行估计。比如已知公式是y = a*x + b，未知参数是a和b。我们现在有很多真实的(x,y)数据（训练样本），回归就是利用这些数据对a和b的取值去自动估计。

其实Logistic Regression 就是一个被logistic方程归一化后的线性回归，仅此而已。至于用logistic方程而不用其它，是因为这种归一化的方法往往比较合理，能够打压过大和过小的结果（往往是噪音），以保证主流的结果不至于被忽视。

注：逻辑回归分类器的Spark代码实现参照博客：Spark简介第六章代码部分：http://blog.csdn.net/qustqustjay/article/details/46874071

0 0