假设检验 · Interview Prep

假设检验（Hypothesis Testing）——详尽指南

下面给出对假设检验的系统、分步、且尽可能实用与数学严谨的介绍。内容覆盖基本概念、常见检验、公式、步骤、注意事项、实例计算、功效与样本量、多个比较与非参检验等。若你想要我把某一部分展开为代码（Python/R）或把某一类检验做成可运行示例，也可以直接告诉我。

1. 基本概念与目标（What & Why）

目的：基于样本数据对关于总体（或过程）参数的陈述作出统计判断，决定是否有足够证据拒绝一个事先提出的“零假设”（null hypothesis）。

零假设 (H_0)：通常是“无效应/无差异/无关系”的假设，例如总体均值等于某值、两个总体相等等。

备择假设 (H_1) 或 (H_a)：与 (H_0) 对立，表示研究者想要证明的效应或差异。

检验的结果不是“证明 (H_0) 为真”，而是评估数据是否提供足够证据去 拒绝 (H_0)（在给定显著性水平下）。

2. 假设检验的一般步骤（Procedure）

提出假设：写出 (H_0) 与 (H_1)。注意单侧或双侧（见下）。

选显著性水平 (\alpha)：常用 (0.05, 0.01, 0.10)。

选择检验统计量：依据问题与数据分布（z、t、χ²、F、等）。

确定拒绝域或计算 p 值：

使用抽样分布（在 (H_0) 下）确定临界值，或

直接计算 p 值（观察到或更极端结果出现的概率）。

做决定：

若 () → 拒绝 (H_0)（显著）。

若 () → 不拒绝 (H_0)（不足证据拒绝）。

解释结果：给出统计结论与实际含义，并报告效应量与置信区间（建议同时给出）。

3. 单侧 vs 双侧检验

双侧检验： () vs ()。检验两边偏离。

单侧检验：例如 () 或 ()。只检验一侧偏差（功效在该方向上更高，但不能用于发现相反方向的差异）。

选择时务必在看数据前决定，不能事后根据数据方向改成单侧（会引入偏差）。

4. 错误类型与置信（Type I / II，Power）

I 型错误（False Positive）：在 () 为真时错误地拒绝 ()。概率为显著性水平（例如 0.05）。

II 型错误（False Negative）：在为真时未能拒绝。概率记为。

检验功效（Power）：，表示在 (H_1) 真时正确拒绝 (H_0) 的概率。功效受样本量、显著性水平、效应大小、和数据变异性影响。

通常在设计研究时会事先做功效分析（power analysis）以决定样本量。

5. p 值与其误读（p-value）

定义：在 (H_0) 为真条件下，观测到的统计量至少像实际观测值那样极端的概率。

误读要点：

p 值不是 (H_0) 为真的概率，也不是 (H_1) 为真的概率。
小 p 值支持拒绝 (H_0)，但不等于效果“重要”（需看效应量）。
p 在 0 与 1 之间；越小说明观测与 (H_0) 越不一致。

推荐同时报告效应量与置信区间，而不是仅报告 p 值。

6. 典型检验与公式（重要且常用）

6.1 单样本均值 z 检验（已知总体方差 ()）

用于样本来自正态总体或样本量大（CLT）。

统计量：

若（双侧），则拒绝 (H_0)。

6.2 单样本均值 t 检验（总体方差未知）

更常用，使用样本标准差 (s)。

统计量：

临界值来自 t 分布的自由度 (n-1)。

6.3 两独立样本 t 检验（均值差异）

等方差（pooled）：假设两个总体方差相等 ()：

不等方差（Welch）：更稳健，不假定相等方差：

自由度按 Welch-Satterthwaite 公式近似计算。

6.4 配对样本 t 检验（paired）

用于前后测或成对观测，计算差值，然后对差值作单样本 t 检验：

6.5 比例检验（单样本或两样本）

单样本检验：

两样本比较 (p_1-p_2) 可用 pooled 或 unpooled 方法。

6.6 卡方检验（χ²）

拟合优度（goodness-of-fit）：检验观测频数是否符合指定分布。

在 (H_0) 下约服从 χ²，自由度 = 类别数 − 参数个数 − 1。

独立性检验（contingency table）：检验两个分类变量是否独立。

同样用上式，期望频数按独立假设计算。

注意：期望频数过小（通常要求每格 >5）时，卡方近似不可靠，可用 Fisher 精确检验。

6.7 回归系数检验（t 检验）

在线性回归中检验某个系数 ()：

通常。

7. 非参数检验（当参数假设不成立）

Mann–Whitney U（Wilcoxon rank-sum）：两独立样本的中位数或分布差异检验（替代两样本 t）。

Wilcoxon signed-rank：配对样本的非参数替代。

Kruskal–Wallis：多组的非参数 ANOVA 替代。

Fisher 精确检验：小样本的列联表独立性检验。

Permutation（置换）检验：基于重排数据计算精确 p 值（非参、对分布假设要求少）。

Bootstrap：用于估计标准误、置信区间或 p 值的重采样法。

8. 置信区间与假设检验的关系

() 的置信区间如果不包含 (H_0) 中的参数值（比如 ()），则等价于以显著性水平 () 拒绝 ()（双侧检验）。

报告置信区间能同时给出估计值与不确定性，比单纯 p 值更有信息性。

9. 常见误区与实践建议

不要混淆“未拒绝 (H_0)”与“接受 (H_0)”：未拒绝只是证据不足，不能证明无效应。

p 值不是效果大小：应同时报告效应量（如差值、Cohen's d、回归系数）与置信区间。

避免事后选择检验或切换单/双侧：应在分析计划（pre-registration）或研究设计时确定检验细节。

注意统计显著 vs 实际显著：大样本容易产生显著但无实际意义的差异。

检验前检查假设：正态性、方差齐性、独立性等；若不满足，考虑变换或非参检验。

样本量不足会导致低功效：容易造成 II 型错误（漏检真实效应）。

多个比较问题：做多次检验要用校正方法，或报告 FDR。

10. 实例（手算/概念示例）

例 1：单样本 t 检验（手算思路）

问题：想检验某药物是否使血压降至低于 120 mmHg（双侧或单侧取决于问题）。样本 (n=25)，样本均值，样本标准差。检验，显著性水平（单侧）。

统计量：

查 t 分布表，自由度 (24)，单侧临界值。因为，拒绝 (H_0)（在 5% 水平下，数据支持均值小于 120）。也可算 p 值（p≈0.037）并报告。

例 2：两独立样本 z 检验（比例）

合并比例：

标准误：

计算 Z：

根据 Z 与标准正态分布决定是否拒绝.

11. 什么时候用哪种检验（实用决策树）

目标是检验均值：

样本量小，方差未知，且近似正态 → t 检验。

方差已知或样本量大（CLT）→ z 检验（少用）。

两组独立 → 两样本 t（考虑 Welch）。

成对数据 → 配对 t。

目标是检验比例 → 比例 z 检验或精确方法（小样本）。

两个分类变量的独立性 → 卡方检验或 Fisher 精确（小样本）。

比较多个组均值 → ANOVA；若不满足正态/方差齐性 → Kruskal–Wallis。

不想做分布假设 → 非参数检验或置换检验。

模型比较（嵌套） → 似然比检验、AIC/BIC、交叉验证等。

t-分布

🌱 一、定义：t 分布的精确定义

一个随机变量 (T) 服从自由度为 () 的 t 分布（Student’s t-distribution），

若它可以表示为：

其中：

（标准正态分布），

（自由度为的卡方分布），

且 (Z) 与 (V) 独立。

这就是 t 分布的生成定义。

🧮 二、t 分布与正态分布、χ²分布的关系

项目	分布	自由度	关系
(Z)	正态 (N(0,1))	—	t 的“分子”
(V)	χ² 分布		t 的“分母”来源
	t 分布		二者的组合

所以：

✅ t 分布本质上是“标准正态除以标准化的 χ² 的平方根”。

📊 四、t 与正态的几何和极限关系

形状上

对称于 0；

峰部略低，尾部更厚；

随自由度 ν 增大，越来越接近标准正态。

极限关系

当自由度很大时，卡方项，于是

即 t 分布趋向标准正态分布。

方差

→ 当，方差趋于 1，与标准正态一致。

⚙️ 五、几何推导（经典证明思路）

🔍 六、直觉解释（为什么分母是卡方）

分子 (Z)：测量样本均值与真值之间的“信号差异”；

分母 ()：测量“噪声估计的不确定性”；

因为分母是方差估计 (S) 的随机量，不是常数；

所以 () 比单纯的 (Z) 拥有更大的尾部（fatter tails）；

即使样本均值看似“离真值很远”，在样本小或方差不稳定时，仍可能属于合理波动。

⚖️ 七、总结对比表

特征	正态分布 (N(0,1))	t 分布 (t_\nu)
定义	仅 ()	() 独立
尾部	较薄	较厚（不确定性更大）
期望	0	0
方差	1	(
对称性	对称	对称
极限	自身	当 ν→∞ 时 → N(0,1)

🌿卡方分布简介（χ² distribution）

1️⃣ 定义

若为独立标准正态变量，

则称 (V) 服从自由度为 (k) 的卡方分布：

2️⃣ 性质

性质	公式 / 含义
支撑域	（非负）
期望
方差
分布来源	正态平方和
特殊情况
关系