Irwin-Hall 分布学习笔记

定理：Irwin-Hall 分布

对于 \(n\) 个在 \([0,1]\) 内均匀分布的实数随机变量，它们的和不超过一个实数 \(z\) 的概率为：

\[F(z)=\sum\limits_{k=0}^{\lfloor z\rfloor} (-1)^k\binom{n}{k}\frac{(z-k)^n}{n!}
\]

证明：

首先明确一个概念：概率密度。

对于一个随机变量 \(X\)，在 \([0,1]\) 上定义概率密度 \(\rho(x)\)，使得对于任意 \(t\in[0,1]\)，有 \(\int_{x=0}^t \rho(x)\mathrm{d}x=P(X\le t)\) 成立。如果令 \(f(t)=P(X\le t)\)，那么就有 \(\rho(t)=f'(t)\)。

那么对于 \(n\) 个随机变量 \(X_1,X_2,\dots,X_n\)，它们的和 \(\le z\) 的概率即为：

\[P(\sum X_i\le z)=\int\limits_{x_i\in[0,1],\sum x_i\le z}\prod \rho_i(x_i)\prod \mathrm{d}x_i \tag{1}
\]

可以将概率密度理解为线段 \([0,1]\) 上密密地撒有很多很多带权的小点，如果一个随机变量 \(X_i\) 取到了点 \(x_i\)，那么它就会产生 \(\rho_i(x_i)\) 的权重。多个变量的权重即为每个变量单独的权重之积。仔细理解一下这样的定义是很合理的。

在 Irwin-Hall 分布里，所有随机变量是均匀随机的，所以 \(P(X\le t)=t\)，于是求导即可得 \(\rho(t)=1\)。

为了方便计算，我们将函数 \(\rho(x)\) 进行扩域。准确来说，原本的 \(\rho(x)\) 是定义在 \([0,1]\) 上的，这也可以视为当 \(x\notin [0,1]\) 时 \(\rho(x)=0\)；为了方便 \((1)\) 式的计算，我们令 \(\rho(x)=\rho'(x)-\rho''(x)\)（这里不是求导），其中 \(\rho'(x)\) 和 \(\rho''(x)\) 的函数表达式和 \(\rho(x)\) 完全相同，只是 \(\rho'(x)\) 改为定义在 \([0,+\infty)\) 上，\(\rho''(x)\) 改为定义在 \([1,+\infty)\) 上。这样 \((1)\) 式的求和下标中上界就可以省去，有利于进一步的推导。

现在继续对 \((1)\) 式的推导。

\[\begin{aligned}
P(\sum X_i\le z)&=\int\limits_{x_i\in[0,1],\sum x_i\le z}\prod \rho_i(x_i)\prod \mathrm{d}x_i\\
&=\int\limits_{x_i\in[0,1],\sum x_i\le z}\prod (\rho'_i(x_i)-\rho''_i(x_i))\prod \mathrm{d}x_i\\
&=\sum\limits_{k}(-1)^k\binom{n}{k}\int\limits_{x_i\ge 0,\sum x_i\le z-k}\prod\limits_{i=1}^k \rho''_i(x_i+1) \prod\limits_{i=k+1}^n \rho'_i(x_i)\prod \mathrm{d}x_i
\end{aligned} \tag{2}
\]

式子中的 \(k\) 即枚举钦定了几个变量是大于 \(1\) 的，然后进行容斥。

对于 Irwin-Hall 分布来说，\(\prod\limits_{i=1}^k \rho''_i(x_i+1) \prod\limits_{i=k+1}^n \rho'_i(x_i)\) 恒为 \(1\)，于是 \((2)\) 式即为：（注意下标中 \(x_i\) 之和 \(\le z-k\) 而非 \(z\)）

\[\sum\limits_{k}(-1)^k\binom{n}{k}\int\limits_{x_i\ge 0,\sum x_i\le z-k}\prod \mathrm{d}x_i \tag{3}
\]

考虑积分里面的式子。我们将 \(\sum x_i\le z-k\) 视为在 \(z-k\) 内选出 \(n\) 个数 \(t_1\le t_2\le \dots \le t_n\)，然后计算 \(\rho_1(t_1)\times\rho_2(t_2-t_1)\times\dots\times\rho_n(t_n-t_{n-1})=1\)。然后发现 \(t_1\le t_2\le \dots \le t_n\) 很烦，又发现贡献系数和 \(t_i\) 的具体值毫无关系，于是可以直接变成 \(t_i\) 在 \([0,z-k]\) 内任选，然后乘上一个 \(\frac{1}{n!}\) 的系数。于是 \((3)\) 式即为：

\[\sum\limits_{k=0}^{\lfloor z \rfloor}(-1)^k\binom{n}{k}\frac{(z-k)^n}{n!}
\]

\(\mathrm{Q.E.D.}\)