假设检验(Hypothesis Testing)——详尽指南
下面给出对假设检验的系统、分步、且尽可能实用与数学严谨的介绍。内容覆盖基本概念、常见检验、公式、步骤、注意事项、实例计算、功效与样本量、多个比较与非参检验等。若你想要我把某一部分展开为代码(Python/R)或把某一类检验做成可运行示例,也可以直接告诉我。
1. 基本概念与目标(What & Why)
目的:基于样本数据对关于总体(或过程)参数的陈述作出统计判断,决定是否有足够证据拒绝一个事先提出的“零假设”(null hypothesis)。
- 零假设 (H_0):通常是“无效应/无差异/无关系”的假设,例如总体均值等于某值、两个总体相等等。
- 备择假设 (H_1) 或 (H_a):与 (H_0) 对立,表示研究者想要证明的效应或差异。
检验的结果不是“证明 (H_0) 为真”,而是评估数据是否提供足够证据去 拒绝 (H_0)(在给定显著性水平下)。
2. 假设检验的一般步骤(Procedure)
- 提出假设:写出 (H_0) 与 (H_1)。注意单侧或双侧(见下)。
- 选显著性水平 (\alpha):常用 (0.05, 0.01, 0.10)。
- 选择检验统计量:依据问题与数据分布(z、t、χ²、F、等)。
- 确定拒绝域或计算 p 值:
- 使用抽样分布(在 (H_0) 下)确定临界值,或
- 直接计算 p 值(观察到或更极端结果出现的概率)。
- 做决定:
- 若 () → 拒绝 (H_0)(显著)。
- 若 () → 不拒绝 (H_0)(不足证据拒绝)。
- 解释结果:给出统计结论与实际含义,并报告效应量与置信区间(建议同时给出)。
3. 单侧 vs 双侧检验
- 双侧检验: () vs ()。检验两边偏离。
- 单侧检验:例如 () 或 ()。只检验一侧偏差(功效在该方向上更高,但不能用于发现相反方向的差异)。
选择时务必在看数据前决定,不能事后根据数据方向改成单侧(会引入偏差)。
4. 错误类型与置信(Type I / II,Power)
- I 型错误(False Positive):在 () 为真时错误地拒绝 ()。概率为显著性水平 (例如 0.05)。
- II 型错误(False Negative):在 为真时未能拒绝 。概率记为 。
- 检验功效(Power):,表示在 (H_1) 真时正确拒绝 (H_0) 的概率。功效受样本量、显著性水平、效应大小、和数据变异性影响。
通常在设计研究时会事先做功效分析(power analysis)以决定样本量。
5. p 值与其误读(p-value)
- 定义:在 (H_0) 为真条件下,观测到的统计量至少像实际观测值那样极端的概率。
- 误读要点:
- p 值不是 (H_0) 为真的概率,也不是 (H_1) 为真的概率。
- 小 p 值支持拒绝 (H_0),但不等于效果“重要”(需看效应量)。
- p 在 0 与 1 之间;越小说明观测与 (H_0) 越不一致。
- 推荐同时报告效应量与置信区间,而不是仅报告 p 值。
6. 典型检验与公式(重要且常用)
6.1 单样本均值 z 检验(已知总体方差 ())
用于样本来自正态总体或样本量大(CLT)。
统计量:
若 (双侧),则拒绝 (H_0)。
6.2 单样本均值 t 检验(总体方差未知)
更常用,使用样本标准差 (s)。
统计量:
临界值来自 t 分布的自由度 (n-1)。
6.3 两独立样本 t 检验(均值差异)
- 等方差(pooled):假设两个总体方差相等 ():
- 不等方差(Welch):更稳健,不假定相等方差:
自由度按 Welch-Satterthwaite 公式近似计算。
6.4 配对样本 t 检验(paired)
用于前后测或成对观测,计算差值 ,然后对差值作单样本 t 检验:
6.5 比例检验(单样本或两样本)
单样本检验 :
两样本比较 (p_1-p_2) 可用 pooled 或 unpooled 方法。
6.6 卡方检验(χ²)
- 拟合优度(goodness-of-fit):检验观测频数是否符合指定分布。
在 (H_0) 下约服从 χ²,自由度 = 类别数 − 参数个数 − 1。
- 独立性检验(contingency table):检验两个分类变量是否独立。
同样用上式,期望频数按独立假设计算。
注意:期望频数过小(通常要求每格 >5)时,卡方近似不可靠,可用 Fisher 精确检验。
6.7 回归系数检验(t 检验)
在线性回归中检验某个系数 ():
通常 。
7. 非参数检验(当参数假设不成立)
- Mann–Whitney U(Wilcoxon rank-sum):两独立样本的中位数或分布差异检验(替代两样本 t)。
- Wilcoxon signed-rank:配对样本的非参数替代。
- Kruskal–Wallis:多组的非参数 ANOVA 替代。
- Fisher 精确检验:小样本的列联表独立性检验。
- Permutation(置换)检验:基于重排数据计算精确 p 值(非参、对分布假设要求少)。
- Bootstrap:用于估计标准误、置信区间或 p 值的重采样法。
8. 置信区间与假设检验的关系
- () 的置信区间如果不包含 (H_0) 中的参数值(比如 ()),则等价于以显著性水平 () 拒绝 ()(双侧检验)。
- 报告置信区间能同时给出估计值与不确定性,比单纯 p 值更有信息性。
9. 常见误区与实践建议
- 不要混淆“未拒绝 (H_0)”与“接受 (H_0)”:未拒绝只是证据不足,不能证明无效应。
- p 值不是效果大小:应同时报告效应量(如差值、Cohen's d、回归系数)与置信区间。
- 避免事后选择检验或切换单/双侧:应在分析计划(pre-registration)或研究设计时确定检验细节。
- 注意统计显著 vs 实际显著:大样本容易产生显著但无实际意义的差异。
- 检验前检查假设:正态性、方差齐性、独立性等;若不满足,考虑变换或非参检验。
- 样本量不足会导致低功效:容易造成 II 型错误(漏检真实效应)。
- 多个比较问题:做多次检验要用校正方法,或报告 FDR。
10. 实例(手算/概念示例)
例 1:单样本 t 检验(手算思路)
问题:想检验某药物是否使血压降至低于 120 mmHg(双侧或单侧取决于问题)。样本 (n=25),样本均值,样本标准差。检验,显著性水平 (单侧)。
统计量:
查 t 分布表,自由度 (24),单侧临界值 。因为 ,拒绝 (H_0)(在 5% 水平下,数据支持均值小于 120)。也可算 p 值(p≈0.037)并报告。
例 2:两独立样本 z 检验(比例)
合并比例:
标准误:
计算 Z:
根据 Z 与标准正态分布决定是否拒绝.
11. 什么时候用哪种检验(实用决策树)
- 目标是检验均值:
- 样本量小,方差未知,且近似正态 → t 检验。
- 方差已知或样本量大(CLT)→ z 检验(少用)。
- 两组独立 → 两样本 t(考虑 Welch)。
- 成对数据 → 配对 t。
- 目标是检验比例 → 比例 z 检验或精确方法(小样本)。
- 两个分类变量的独立性 → 卡方检验或 Fisher 精确(小样本)。
- 比较多个组均值 → ANOVA;若不满足正态/方差齐性 → Kruskal–Wallis。
- 不想做分布假设 → 非参数检验或置换检验。
- 模型比较(嵌套) → 似然比检验、AIC/BIC、交叉验证等。
t-分布
🌱 一、定义:t 分布的精确定义
一个随机变量 (T) 服从自由度为 () 的 t 分布(Student’s t-distribution),
若它可以表示为:
其中:
- (标准正态分布),
- (自由度为 的卡方分布),
- 且 (Z) 与 (V) 独立。
这就是 t 分布的生成定义。
🧮 二、t 分布与正态分布、χ²分布的关系
项目 | 分布 | 自由度 | 关系 |
(Z) | 正态 (N(0,1)) | — | t 的“分子” |
(V) | χ² 分布 | t 的“分母”来源 | |
t 分布 | 二者的组合 |
所以:
✅ t 分布本质上是“标准正态除以标准化的 χ² 的平方根”。
📊 四、t 与正态的几何和极限关系
- 形状上
- 对称于 0;
- 峰部略低,尾部更厚;
- 随自由度 ν 增大,越来越接近标准正态。
- 极限关系
当自由度很大时,卡方项 ,于是
即 t 分布趋向标准正态分布。
- 方差
→ 当 ,方差趋于 1,与标准正态一致。
⚙️ 五、几何推导(经典证明思路)

🔍 六、直觉解释(为什么分母是卡方)
- 分子 (Z):测量样本均值与真值之间的“信号差异”;
- 分母 ():测量“噪声估计的不确定性”;
- 因为分母是方差估计 (S) 的随机量,不是常数;
- 所以 () 比单纯的 (Z) 拥有更大的尾部(fatter tails);
- 即使样本均值看似“离真值很远”,在样本小或方差不稳定时,仍可能属于合理波动。
⚖️ 七、总结对比表
特征 | 正态分布 (N(0,1)) | t 分布 (t_\nu) |
定义 | 仅 () | () 独立 |
尾部 | 较薄 | 较厚(不确定性更大) |
期望 | 0 | 0 |
方差 | 1 | ( |
对称性 | 对称 | 对称 |
极限 | 自身 | 当 ν→∞ 时 → N(0,1) |
🌿卡方分布简介(χ² distribution)
1️⃣ 定义
若 为独立标准正态变量,
则称 (V) 服从自由度为 (k) 的卡方分布:
2️⃣ 性质
性质 | 公式 / 含义 |
支撑域 | (非负) |
期望 | |
方差 | |
分布来源 | 正态平方和 |
特殊情况 | |
关系 |
