⚙️ 试验设置

总杯数为 2n。Fisher 经典案例中 n=4 (共8杯)。

📋 当前列联表

行:实际加奶顺序;列:女士猜测结果。

📊 概率分布与证据强度


📉 灵敏度分析:全对时的 P 值变化

图中展示了在女士‘全部猜对’的情况下,P值随总杯数增加而下降的趋势。

🎯 为什么 Fisher 选择 8 杯?

  • n = 3 (6杯): 即使全部猜对,P = 1/20 = 0.05。刚好压在显著性水平线上,证据稍显单薄。

  • n = 4 (8杯): 全对的 P ≈ 0.014。这远低于 0.05,即便女士偶然错了一杯(猜对3杯,P ≈ 0.24),我们也能清晰看到‘偶然性’的增加。

  • 成本博弈: 8 杯茶可以在一个下午轻松测试完,且不会让受试者因喝水过多而导致味觉疲劳。

8 杯是第一个能提供‘强有力证据’且‘操作简便’的最小样本量。

精确检验的数学逻辑


1. 超几何分布

Fisher 假设列联表的行列边际(Margins)是固定的。在这种情况下,猜对杯数 \(k\) 的概率计算如下:

$$P(K = k) = \frac{\binom{n}{k} \binom{n}{n - k}}{\binom{2n}{n}}$$

这里的分母表示从 \(2n\) 杯茶中随机选出 \(n\) 杯的所有组合方式。

2. P 值的含义

P 值不是‘原假设为真的概率’,而是‘在原假设下观测到当前及更极端结果的概率’:

$$P = \sum_{i=k}^{n} P(K = i)$$

当 P 足够小时,我们认为‘纯属巧合’的解释不再合理。