大数定律简介
假设一个总体有均值 \(\mu\),从该总体中抽取一组容量为 \(n\) 的简单随机样本 \(X_1,\ldots,X_n\),则大数定律描述了样本均值 \(\overline{X}_{n}\) 依概率或几乎处处收敛到总体均值 \(\mu\),即
$$\overline{X}_n = \frac{1}{n}\sum_{i=1}^n X_i \rightarrow \mu, \quad n \rightarrow \infty$$
本实验通过从指定参数的总体分布中随机抽取容量为 \(n\) 的样本, 绘制样本均值随样本量 \(n\) 的变化来观察其收敛到总体均值的趋势。
⚠️ 均值存在的必要性
大数定律成立的关键前提之一是总体的 均值必须存在(有限) 。 若总体均值不存在,样本均值将 永远不会收敛 , 无论样本量多大,样本均值仍会随机漂移。
经典反例是 柯西分布(Cauchy Distribution) ,其密度函数为
$$f(x) = \frac{1}{\pi\sigma\left[1+\left(\frac{x-\mu}{\sigma}\right)^2\right]}$$
柯西分布尾部极重,期望积分发散,均值不存在, 因此样本均值无论 \(n\) 多大都不会稳定。
Pareto分布与均值/方差的存在性
Pareto分布的密度函数为
$$f(x) = \frac{\alpha x_m^\alpha}{x^{\alpha+1}}, \quad x \geq x_m$$
其中 \(\alpha\) 为形状参数(shape)。均值和方差是否存在取决于 \(\alpha\):
- \(\alpha \leq 1\) :均值不存在,大数定律不适用, 此时\(x_m=\mu/2\) ⚠️
- \(1 < \alpha \leq 2\) :均值存在\(\mu=\alpha x_m/( \alpha-1)\),但方差不存在,收敛极慢 ⚠️
- \(\alpha > 2\) :方差存在,\(Var(X)=x_m^2\alpha /[(\alpha-1)^2(\alpha-2)]\), 大数定律成立,但仍比正态慢
通过调整 shape 参数,直观观察不同条件下大数定律的适用性和收敛速度。
建议实验步骤
- 选择「正态分布」,观察样本均值稳定收敛到 μ
- 切换到「柯西分布」,对比观察样本均值完全不收敛
- 切换到「Pareto分布」,将 shape 从 0.8 逐渐增大,观察收敛行为的变化
- 在Pareto分布下,对比 shape=1.5(方差不存在)与 shape=3(方差存在)的收敛速度
- 多次点击「重新抽样」,体会随机性对每条路径的影响
总体分布
样本均值随样本量变化
不同样本量下的样本均值
以下表格展示10个等间距样本量节点处各重复实验的样本均值