ROC曲线,AUC,

来源:互联网 发布:一个算法应具备的特性 编辑:程序博客网 时间:2024/06/11 23:16

信号检测理论中,接收者操作特征曲线receiver operating characteristic curve,或者叫ROC曲线)是一种座标图式的分析工具

用途(1),选择最佳的分类模型(2),同一模型中选择最佳阈值

那是怎么达到这一目的的呢?

首先要了解几个概念。

真阳性TP,真阴性TN,伪阳性FP,伪阴性FN,伪阳性率(FPR),真阳性率(TPR)。

举个例子,比如你预测某只股票是上涨还是下跌,你说涨,实际真的涨了就是真阳性TP,但如果实际跌了,那就是伪阳性FP,反之,如果你预测跌了,实际真跌了就是真阴性TN,如果实际是涨了就是伪阴性FN,如果你预测了很多只股票,你预测涨的实际也涨了占实际真涨(包括你说准的和实际涨预测成跌的)的比值就是真阳性率(TPR),公式为TPR=TP/(TP+FN )。而本来跌的你预测成涨的占实际真跌的比较是伪阳性率,公式为FPR=FP/(FP+TN)。

ROC空间就建立在上述两个概念上的将伪阳性率(FPR)定义为 X 轴,真阳性率(TPR)定义为 Y 轴。这平面有什么特点呢?完美的预测是一个在左上角的点,在ROC空间座标 (0,1)点,X=0 代表着没有伪阳性,Y=1 代表着没有伪阴性(所有的阳性都是真阳性);也就是说,不管分类器输出结果是阳性或阴性,都是100%正确。一个随机的预测会得到位于从 (0, 0) 到 (1, 1) 对角线(也叫无识别率线)上的一个点;最直观的随机预测的例子就是抛硬币

给出一个模型和阈值,在训练阶段,根据真实值和预测值就可以计算出FPR和TPR,而通过这一方式把模型和阈值映射成ROC空间的一个点,那么可以通过采用不同模型或者不同阈值,就可以得到ROC空间上一系列点了。这一系列的点怎么反应预测的效果呢?(见http://zh.wikipedia.org/wiki/ROC%E6%9B%B2%E7%BA%BF例子)通过拟合这些点就能够得到ROC空间上的一条曲线。那自然我们会想,这一曲线有什么规律,我们能从这一曲线得到哪些信息呢。

(1),对于不同分类器而言,测量标准等各个方面都不一样,所以得到的曲线没有规律可循。

(2),同一分类器不同阈值呢?(http://zh.wikipedia.org/wiki/ROC%E6%9B%B2%E7%BA%BF)

既然不同分类器的曲线没有规律可循,那么曲线的其他特征是否可以利用。自然引出曲线下的面积

AUC因为是在1x1的方格里求面积,AUC必在0~1之间。

假设阈值以上是阳性,以下是阴性;

若随机抽取一个阳性样本和一个阴性样本,分类器正确判断阳性样本的值高于阴性样本之机率 =AUC。

简单说:AUC值越大的分类器,正确率越高。

从AUC判断分类器(预测模型)优劣的标准:

AUC = 1,是完美分类器,采用这个预测模型时,不管设定什么阈值都能得出完美预测。绝大多数预测的场合,不存在完美分类器。

0.5 <AUC < 1,优于随机猜测。这个分类器(模型)妥善设定阈值的话,能有预测价值。

AUC =0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。

AUC <0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。

0 0
原创粉丝点击