卡方分布与卡方检验
来源:互联网 发布:淘宝买兔子死了 编辑:程序博客网 时间:2024/06/11 23:29
1.卡方分布
卡方分布(chi-square distribution,
我们先来看看卡方分布的定义:
若
为服从自由度为
也可以记为:
卡方分布的期望与方差分为为:
2.卡方检验
一般可以设原假设为
实际应用中,我们先假设
其中,A为实际值,T为理论值。
1.实际值与理论值偏差的绝对大小。
2.差异程度与理论值的相对大小。
3.卡方检验做特征选择
卡方检验经常被用来做特征选择。举个网络上的例子,假设我们有一堆新闻标题,需要判断标题中包含某个词(比如吴亦凡)是否与该条新闻的类别归属(比如娱乐)是否有关,我们只需要简单统计就可以获得这样的一个四格表:
娱乐
娱乐
吴亦凡
192443包含吴亦凡
341044合计533487 通过这个四格表我们得到的第一个信息是:标题是否包含吴亦凡确实对新闻是否属于娱乐有统计上的差别,包含吴亦凡的新闻属于娱乐的比例更高,但我们还无法排除这个差别是否由于抽样误差导致。那么首先假设标题是否包含吴亦凡与新闻是否属于娱乐是独立无关的,随机抽取一条新闻标题,属于娱乐类别的概率是:(19 + 34) / (19 + 34 + 24 +10) = 60.9%
理论值的四格表为:
娱乐
娱乐
吴亦凡
43 * 0.609 = 26.243 * 0.391 = 16.843包含吴亦凡
44 * 0.609 = 26.844 * 0.391 = 17.244显然,如果两个变量是独立无关的,那么四格表中的理论值与实际值的差异会非常小。
则
标准的四格表
其中,
得到
首先我们明确自由度的概念:自由度v=(行数-1)*(列数-1)。
然后看卡方分布的临界概率,表如下:
一般我们取p=0.05,也就是说两者不相关的概率为0.05时,对应的卡方值为3.84。显然10.0>3.84,那就说明包含吴亦凡的新闻不属于娱乐的概率小于0.05。换句话说,包含吴亦凡的新闻与娱乐新闻相关的概率大于95%!
总结一下:我们可以通过卡方值来判断特征是否与类型有关。卡方值越大,说明关联越强,特征越需要保留。卡方值越小,说明越不相关,特征需要去除。
- 卡方分布与卡方检验
- 卡方分布与卡方检验------以及python的实现
- 单总体分布卡方拟合优度检验
- matlab概率及数理统计学习-T检验、卡方检验、直方图分布检验
- 卡方检验 总结
- 卡方检验
- 卡方检验基础
- 卡方检验基础
- 卡方检验基础
- 卡方检验
- 卡方检验 Matlab
- 卡方检验
- 卡方检验
- 卡方检验
- 卡方检验总结
- 卡方检验
- MLlib 卡方检验
- 复习:卡方检验
- 优先队列结构体重载的二级排序
- 淘忆项目之主界面的修正归纳
- wireshark使用教程
- OJ3402数据结构实验之排序五:归并求逆序数
- 【codeforces 554B Ohana Cleans Up】
- 卡方分布与卡方检验
- CodeForces-632B Alice, Bob, Two Teams 【dp】
- Java基础笔试题干货
- 用java写个死锁
- 2016-08-22-java-堆和栈的一道题
- 要点(1)
- Ajax跨域、Json跨域、Socket跨域和Canvas跨域等同源策略限制的解决方法
- Qt中Ui名字空间以及setupUi函数的原理和实现
- UVA-712 S-Tree