机器学习 | 一:协方差和相关系数

来源:互联网 发布:2016最流行的编程语言 编辑:程序博客网 时间:2024/06/02 20:51


今日话题  

        为了深刻理解机器学习算法的原理,首先得掌握其中涉及到的一些基本概念和理论,比如概率,期望,标准差,方差。在这些基本概念上,又衍生出了很多重要概念,比如协方差,相关系数等。今天我们就来聊聊这些组成机器学习的基本概念。



01概率  

概率 P 是对随机事件发生的可能性的度量。


例如,小明在期末考试前,统计了下自己在今年的数学考试成绩,结果显示得到80分以下的次数为2次,得80分~90分的次数为10次,得到90分以上次数为3次,那么小明得到 

80分以下的概率为:

P( < 80 ) = 2/(2+10+3) = 13.3%

80~90分的概率为:

P( 80 ~ 90) = 10/(2+10+3) = 66.7%

90分以上的概率:

P( > 90) = 3/(2+10+3) = 20%


02期望值 

期望值  E,在一个离散性随机变量实验中,重复很多次实验,每次实验的结果乘以其出现的概率的总和。


如上例中,小明在今年的期末考试,我们对他的期望值大约是多少呢?套用上面的公式,80分以下的值取一个代表性的分数:70分,80~90:85分,90分以上:95分,

E =  70 * 0.133 + 85 * 0.667 + 95 * 0.2


计算出的结果为 85,即期末考试我们对小明的合理期望是 85 分左右。


03方差  

方差 ,用来度量随机变量取值和其期望值之间的偏离程度,

其中:

X 表示小明的分数这个随机变量

N 表示样本的个数,即在此15个


已经知道小明的15次考试的分数,均值刚才我们也计算出来了为 85分,带入到上面的公式中,便能得出偏离85分的程度大小。


如果方差很大,那么小明在期末考试的分数可能偏离85分的可能性就越大;如果方差很小,那么小明很可能期末考试分数在85分左右。


方差开根号,得到标准差,即为 。


04协方差

以上几个概念理解了后,下面再阐述什么是协方差,字面上看它比方差多一个协字,那么大体也能猜出,它可能是衡量两个随机变量间是不是存在某种关系的。


那么它的实际定义如下:


其中,

X, Y 是两个随机变量

 是对应两个随机变量的均值


如果两个变量是高度同向的,即X变大,Y也变大,那么对应的协方差也就很大;如果每次X变大,Y就变小,那么X和Y的协方差可能就会为负数


例如,经过观察,我们发现小明的数学成绩和物理成绩的分数分布情况高度相符,也是70分以下3次,80~90分居多,21次,90分以上1次,那么我们就说小明的数学和物理成绩的协方差很大。


05相关系数

我们考虑具有一般性的公式,通常相关系数的定义如下:

发现这个相关系数与协方差紧密相关,只不过又除以了X的标准差和Y的标准差,也就是说,是一种剔除了X和Y这两个偏离程度量纲的影响,标准化后的特殊协方差。


同样可以拿协方差来理解相关系数,若相关系数很大,则可以得到X变大,Y也很可能会变大的结论。


06总结 

我们阐述了几个重要的概念,最后理解了相关系数,理解它为我们之后理解数据预处理的很多算法,及回归分析都很有帮助,如普通最小二乘法 (OLS)为什么在相关系数大的回归分析上变得误差很大。


转自:算法channel

阅读伙伴公众号更多精彩内容,点击 “ 阅读原文 ”

阅读全文
'); })();
0 0
原创粉丝点击
热门IT博客
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 切断机刀片 调直切断机生产厂家 钢筋切断机功率 加气块切断机 二手钢筋切断机 钢丝绳切断机 工字钢切断机 角钢切断机价格 切断机价格 锚杆切断机 切断机型号 切断机图片 钢筋切断机的价格 小型切断机 钢管切断机 钢筋 切断机 胶带切断机 钢筋切断机图片 钢筋切断机报价 钢筋切断机配件 gq40型钢筋切断机 线缆切断机 直螺纹切断机 切割机坡口机 混凝土切割设备 海绵切割设备 水切割机报价 金属切割设备 数控水切割机 水切割机价格 仿型切割机 不锈钢金属切割机 半自动火焰切割机 铝合金精密切割机 芯样切割机 卫生纸切割设备 圆管切割机 大型数控切割机 小型金属切割机价格 微型数控切割机 墙体切割机