大数定律简介

假设一个总体有均值 \(\mu\),从该总体中抽取一组容量为 \(n\) 的简单随机样本 \(X_1,\ldots,X_n\),则大数定律描述了样本均值 \(\overline{X}_{n}\) 依概率或几乎处处收敛到总体均值 \(\mu\),即

$$\overline{X}_n = \frac{1}{n}\sum_{i=1}^n X_i \rightarrow \mu, \quad n \rightarrow \infty$$

本实验通过从指定参数的总体分布中随机抽取容量为 \(n\) 的样本, 绘制样本均值随样本量 \(n\) 的变化来观察其收敛到总体均值的趋势。


⚠️ 均值存在的必要性

大数定律成立的关键前提之一是总体的 均值必须存在(有限) 。 若总体均值不存在,样本均值将 永远不会收敛 , 无论样本量多大,样本均值仍会随机漂移。

经典反例是 柯西分布(Cauchy Distribution) ,其密度函数为

$$f(x) = \frac{1}{\pi\sigma\left[1+\left(\frac{x-\mu}{\sigma}\right)^2\right]}$$

柯西分布尾部极重,期望积分发散,均值不存在, 因此样本均值无论 \(n\) 多大都不会稳定。


Pareto分布与均值/方差的存在性

Pareto分布的密度函数为

$$f(x) = \frac{\alpha x_m^\alpha}{x^{\alpha+1}}, \quad x \geq x_m$$

其中 \(\alpha\) 为形状参数(shape)。均值和方差是否存在取决于 \(\alpha\):

  • \(\alpha \leq 1\) :均值不存在,大数定律不适用, 此时\(x_m=\mu/2\) ⚠️
  • \(1 < \alpha \leq 2\) :均值存在\(\mu=\alpha x_m/( \alpha-1)\),但方差不存在,收敛极慢 ⚠️
  • \(\alpha > 2\) :方差存在,\(Var(X)=x_m^2\alpha /[(\alpha-1)^2(\alpha-2)]\), 大数定律成立,但仍比正态慢

通过调整 shape 参数,直观观察不同条件下大数定律的适用性和收敛速度。


建议实验步骤

  1. 选择「正态分布」,观察样本均值稳定收敛到 μ
  2. 切换到「柯西分布」,对比观察样本均值完全不收敛
  3. 切换到「Pareto分布」,将 shape 从 0.8 逐渐增大,观察收敛行为的变化
  4. 在Pareto分布下,对比 shape=1.5(方差不存在)与 shape=3(方差存在)的收敛速度
  5. 多次点击「重新抽样」,体会随机性对每条路径的影响

总体分布

样本均值随样本量变化

不同样本量下的样本均值

以下表格展示10个等间距样本量节点处各重复实验的样本均值