卡方检验

来源：互联网发布：不在淘宝显示支付宝编辑：程序博客网时间：2024/06/11 18:40

本人整理，非本人原创。资料收集自网络，相应部分给出蓝色超链接。大学时候学过的东东差不多都还给老师了。。。。

卡方检验是是用途非常广的假设检验方法，它在分类资料统计推断中的应用包括两个率或者两个构成比较的卡方检验；多个比率或多个构成比较的卡方检验以及分类资料的相关分析等。（以上以及接下来的内容来自百度百科）

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度，实际观测值与理论推断值之间的偏离程度就决定卡方值的大小，卡方值越大越不符合；卡方值越小，偏差越小，越趋于符合；若两个值完全相等时，卡方值为0，表示完全一致。

注意：卡方值针对分量变量。

（1）提出原假设：

H0：总体X的分布函数为F(x).

如果总体分布为离散型，则假设具体为

H0：总体X的分布律为P{X=xi}=pi， i=1，2，...

（2）将总体X的取值范围分成k个互不相交的小区间A1，A2，A3，…，Ak，如可取

A1=（a0，a1]，A2=(a1，a2]，...，Ak=(ak-1,ak)，

其中a0可取-∞，ak可取+∞，区间的划分视具体情况而定，但要使每个小区间所含的样本值个数不小于5，而区间个数k不要太大也不要太小。

（3）把落入第i个小区间的Ai的样本值的个数记作fi，成为组频数（真实值），所有组频数之和f1+f2+...+fk等于样本容量n。

（4）当H0为真时，根据所假设的总体理论分布，可算出总体X的值落入第i 个小区间Ai的概率pi，于是，npi就是落入第i个小区间Ai的样本值的理论频数（理论值）。

(5)当H0为真时，n次试验中样本值落入第i个小区间Ai的频率fi/n与概率pi应很接近，当H0不真时，则fi/n与pi相差很大。基于这种思想，皮尔逊引进如下检验统计量

，在0假设成立的情况下服从自由度为k-1的卡方分布。

下面是百度给出的例子

男女化妆15（55）95（55）110不化妆85（45）5（45）90 100100200

如果性别和化妆与否没有关系，四个格子应该是括号里的数（期望值，用极大似然估计55=100*110/200，其中110/200可理解为化妆的概率，乘以男人数100，得到男人化妆概率的似然估计），这和实际值（括号外的数）有差距，理论和实际的差距说明这不是随机的组合。

应用拟合度公式

129.3>10.828

显著不相关，作此推论犯错的概率p>0.999,即99.9%。

注：独立四格表的拟合度公式可以写成n(ad-bc)^2/(a+b)(c+d)(a+c)(b+d)

总结：独立四格表资料检验[1]

四格表资料的卡方检验用于进行两个率或两个构成比的比较。

1. 专用公式：

若四格表资料四个格子的频数分别为a，b，c，d，则四格表资料卡方检验的卡方值=n(ad-bc)^2/(a+b)(c+d)(a+c)(b+d)，（或者使用拟合度公式）

自由度v=（行数-1）（列数-1）=1

2. 应用条件：

要求样本含量应大于40且每个格子中的理论频数不应小于5。当样本含量大于40但有1=<理论频数<5时，卡方值需要校正，当样本含量小于40或理论频数小于1时只能用确切概率法计算概率。

0 0