核密度估计与自适应带宽的核密度估计
来源:互联网 发布:淘宝开店运营流程图 编辑:程序博客网 时间:2024/06/11 12:41
最近看论文,发现一个很不错的概率密度估计方法。在此小记一下。
先来看看准备知识。
密度估计经常在统计学中作为一种使用有限的样本来估计其概率密度函数的方法。
我们在研究随机变量的过程中,随机变量的概率密度函数的作用是描述随机变量的特性。(概率密度函数是用来描述连续型随机变量取值的密集程度的,举例:某地某次考试的成绩近似服从均值为80的正态分布,即平均分是80分,由正态分布的图形知x=80时的函数值最大,即随机变量在80附近取值最密集,也即考试成绩在80分左右的人最多。)但是在实际应用中,总体概率密度函数通常是未知的,那么如何来估计总体概率密度呢?一般,我们通过抽样或者采集一定的样本,可以根据统计学知识从样本集合中推断总体概率密度。这种方法统称为概率密度估计,即根据训练样本来确定随机变量的概率分布。一般概率密度估计方法方法大致分为两类:参数估计和非参数估计。
参数估计(Parametric Estimation)是根据对问题的经验知识,假设问题具有某种数学模型 ,随机变量服从某种分布,即先假定概率密度函数的形式,然后通过训练数据估计出分布函数的参数。常见的参数估计方法有极大似然估计方法和贝叶斯估计方法。对于参数估计,根据样本中是否已知样本所属类别(即是否带标签)将参数估计又划分为监督参数估计和非监督参数估计。监督参数估计是由 已知类别的样本集对总体分布的某些参数进行统计推断 。而无监督参数估计已知总体概率密度函数形式但未知样本所属的类别,要求推断出概率密度函数的某些参数 ,这种推断方法称之为非监督情况下的参数估计。
非参数估计(Nonparametric Estimation)是在已知样本所属的类别不假定总体分布形式下, 基于大样本的性质,直接利用样本估计出整个函数。在很多情况下,我们对样本的分布并没有充分的了解,无法事先给出密度函数的形式,而且有些样本分布的情况也很难用简单的函数来描述。在这种情况下,就需要用到非参数估计。但是,并不是非参数估计一定优于参数估计,因为非参数估计受训练样本影响,其完备性或泛化能力不会很好;且这种估计只能用数值方法取得,无法得到完美的封闭函数图形。常用的非参数估计方法有直方图法,核概率密度估计等。
(若有闲暇,后续将极大似然、贝叶斯估计等等估计方法详细总结)
这里说说核密度估计方法(也有称之为
进入正题
核密度估计的形式:
这里
由于高斯内核方便的数学性质,也经常使用
举例理解(该例子来自维基百科https://en.wikipedia.org/wiki/Kernel_density_estimation)
已知:6个数据点
对于直方图,首先将水平轴划分为覆盖数据范围的子间隔或区段。在这种情况下,我们有6个宽度为2的矩形。每当数据点落在此间隔内时,我们放置一个高度为
很明显,直方图得到的密度估计平滑程度比使用核密度估计得到的密度函数要差很多.
现在问题是如何选定核函数的“方差”呢?这其实是由
核带宽的选择
带宽是一个自由参数,对所得到的估计值有很大的影响。为了说明效果,举个例子:
下图是从标准正态分布中抽取的随机样本(横轴上的蓝色的点点代表样本点)灰色曲线是真是的概率密度(正态密度,均值0,方差1)。相比之下,红色曲线是使用了过小的带宽
那么对于
在
其中,
为了使
当核函数确定之后,
如果使用高斯核函数进行核密度估计,则
这里
这里带宽的作用简述:
1.在数据可视化的相关领域中,带宽的大小决定了核密度估计函数(KDE)的平滑(smooth)程度,带宽越小越undersmooth,带宽越大越oversmooth。(详细解释)
2.在POI兴趣点推荐领域,或位置服务领域,带宽
如果带宽不是固定的,而是根据样本的位置而变化(其变化取决于估计的位置(balloon estimator)或样本点(逐点估计pointwise estimator)),则会产生一种特别有力的方法,称为自适应或可变带宽的核密度估计。就POI兴趣点推荐来说,由于密集的城市地区的签到密度很高,人烟稀少的农村地区的签到密度较低。就是说不同位置应该采取不同的分析尺度,因此本文采用不固定的带宽来进行核密度估计。
说到这, 有些朋友可能不知道POI兴趣点推荐是啥意思, 这里简单的说一下:POI是Point-of-Interest的意思,即兴趣点。就是说,给用户推荐其感兴趣的地点。就这么简单。在推荐系统相关领域,兴趣点推荐是一个非常火爆的研究课题。这里会用到核密度估计的方法,比如这篇论文:Jia-Dong Zhang,Chi-Yin Chow.(2015)GeoSoCa: Exploiting Geographical, Social and Categorical Correlations for Point-of-Interest Recommendations.SIGIR’15, August 09 - 13, 2015, Santiago, Chile.就利用了可变带宽的核密度估计方法。
这里再简单讨论一下自适应带宽的核密度估计方法。自适应带宽的核密度估计方法是在固定带宽核密度函数的基础上,通过修正带宽参数为而得到的,其形式如式所示:
这里
自适应带宽的核密度估计可以参考维基百科:https://en.wikipedia.org/wiki/Variable_kernel_density_estimation
推荐帖子:http://blog.sina.com.cn/s/blog_62b37bfe0101homb.html
参考资料
https://en.wikipedia.org/wiki/Kernel_density_estimation
https://www.zhihu.com/question/20212426/answer/74989607
https://en.wikipedia.org/wiki/Variable_kernel_density_estimation
http://www.tuicool.com/articles/EVJnI3
袁修开,吕震宙,池巧君. 基于核密度估计的自适应重要抽样可靠性灵敏度分析.西北工业大学学报.Vol.26 No.3.2008.6.
- 核密度估计与自适应带宽的核密度估计
- 非参数密度估计(直方图与核密度估计)
- 核密度估计原理
- 核密度估计原理
- 核密度估计简介
- 核密度估计
- 核密度估计(KDE)
- 核概率密度估计介绍
- matlab实现核密度估计
- python核密度估计(KernelDensity)
- 概率密度函数与概率密度函数的估计
- 人群密度估计 密度图的产生
- R语言与非参数统计(核密度估计)
- R语言与非参数统计(核密度估计)
- R语言与非参数统计(核密度估计)
- 9 MATLAB参数估计与假设检验-核密度估计
- 核密度估计 Kernel density estimation
- kernel density estimation-核密度估计
- 桶装水和白开水的缺点
- QT + VS2010 实现中英文切换
- java instanceof操作符
- Python-yield模拟生产消费者模型
- deep learning pretrained model
- 核密度估计与自适应带宽的核密度估计
- $(document).ready()笔记
- [乱搞]斐波那契数列与gcd之间一个有趣的定理
- Android图片处理框架之Fresco学习使用
- java filter过滤器的配置
- 面向对象和面向过程的区别
- MXNet的训练入口:fit.py源码详解
- Android 动画总结
- c++ 学习 内存四区