在分类资料统计分析中我们常会遇到这样的资料,如两组大白鼠在不同致癌剂作用下的发癌率如下表,问两组发癌率有无差别?
| 处理 | 发癌数 | 未发癌数 | 合计 | 发癌率% |
| 甲组 | 52 | 19 | 71 | 73.24 |
| 乙组 | 39 | 3 | 42 | 92.86 |
| 合计 | 91 | 22 | 113 | 80.33 |
52 19
39 3
是表中最基本的数据,因此上表资料又被称之为四格表资料。卡方检验的统计量是卡方值,它是每个格子实际频数A与理论频数T差值平方与理论频数之比的累计和。每个格子中的理论频数T是在假定两组的发癌率相等(均等于两组合计的发癌率)的情况下计算出来的,如第一行第一列的理论频数为71*91/113=57.18,故卡方值越大,说明实际频数与理论频数的差别越明显,两组发癌率不同的可能性越大。
利用统计学软件分析结果如下:
data kafang;
input row column number @@;
cards;
1 1 52
1 2 19
2 1 39
2 2 3
;
run;
proc freq;
tables row*column/chisq;
weight number;
run;
| 统计量 | 自由度 | 值 | 概率 |
| 卡方 | 1 | 6.4777 | 0.0109(有统计学意义) |
| 似然比卡方 | 1 | 7.3101 | 0.0069 |
| 连续校正卡方 | 1 | 5.2868 | 0.0215 |
| Mantel-Haenszel 卡方 | 1 | 6.4203 | 0.0113 |
| Phi 系数 | -0.2394 | ||
| 列联系数 | 0.2328 | ||
| Cramer 的 V | -0.2394 |
假设有两个分类变量X和Y,它们的值域分另为{x1, x2}和{y1, y2},其样本频数列联表为:
| y1 | y2 | 总计 | |
| x1 | a | b | a+b |
| x2 | c | d | c+d |
| 总计 | a+c | b+d | a+b+c+d |
若要推断的论述为H1:“X与Y有关系”,可以利用独立性检验来考察两个变量是否有关系,并且能较精确地给出这种判断的可靠程度。具体的做法是,由表中的数据算出随机变量K^2的值(即K的平方)
K^2 = n (ad - bc) ^ 2 / [(a+b)(c+d)(a+c)(b+d)] 其中n=a+b+c+d为样本容量
K^2的值越大,说明“X与Y有关系”成立的可能性越大。
当表中数据a,b,c,d都不小于5时,可以查阅下表来确定结论“X与Y有关系”的可信程度:
| P(K^2≥k) | 0.50 | 0.40 | 0.25 | 0.15 | 0.10 |
| k | 0.455 | 0.708 | 1.323 | 2.072 | 2.706 |
| P(K^2≥k) | 0.05 | 0.025 | 0.010 | 0.005 | 0.001 |
| k | 3.841 | 5.024 | 6.635 | 7.879 | 10.828 |
例如,当“X与Y有关系”的K^2变量的值为6.109,根据表格,因为5.024≤6.109<6.635,所以“X与Y有关系”成立的概率为1-0.025=0.975,即97.5%。