超幾何分布とは
超幾何分布は、有限の母集団から標本を無作為に抽出する際に使用される確率分布の一つです。例えば、ある集団の中に特定の性質を持つ要素がどれくらい含まれているかを知りたいとき、またその中から無作為にいくつか取り出す場合に、その特定の要素がいくつ含まれるかの確率を求めることができます。
超幾何分布は非復元抽出(取り出すサンプルを戻さない抽出)で使用される点が特徴で、通常は $HG(N, M, n)$ と表します。これは例を使うと、「$M$ 個の赤玉と $N-M$ 個の白玉の合計 $N$ 個の玉が入った袋から非復元抽出で $n$ 個の玉を取り出すとき、$n$ 個のうちの赤玉の個数」が $HG(N, M, n)$ に従うと言えます。$HG(N, M, 1)$ ならば、成功確率 $M/N$ のベルヌーイ分布 $Bin(1, M/N)$ になります。
ちなみに、非復元抽出ではなく復元抽出の場合は二項分布 $Bin(n, M/N)$ となります。これは袋から玉を取り出した後その玉を袋の中に戻すため、$M/N$ という割合が変化しないためです。
超幾何分布の例
- カードゲーム
トランプカードのゲームでは、プレイヤーが手札を引く際の特定のカードを引く確率を計算するのに超幾何分布が使われます。たとえば、52枚のトランプデッキから13枚のハートを含む26枚を引きたい場合、超幾何分布を用いてハートが一定数以上含まれる確率を計算できます。これは、戦略を練る際の重要な要素となります。 - 選挙の出口調査
ある地域で1000人の有権者がいる選挙があり、そのうち600人が候補者 $A$ に投票したとします。出口調査で500人にインタビューを行う場合、候補者 $A$ に投票した人数の分布を超幾何分布で表現できます。
確率関数
超幾何分布の確率関数は、以下のように表されます:
$\begin{align*}
P(X=x) = \frac {{}_{M}C_{x}・{}_{N-M}C_{n-x}}{{}_{N}C_{n}}, \quad \max\{0, n-(N-M)\} \leq x \leq \min\{n, M\}
\end{align*}$
ここで、
- $P(X=x)$ は、確率変数 $X$ が特定の値 $x$ をとる確率を表します。
- $\begin{align*} {}_{n}C_{x}\end{align*}$ は $n$ 回の試行のうち $x$ 回成功する場合の組み合わせの数を表す二項係数であり、
$\begin{align*} {}_{n}C_{x} = \frac{n!}{x!(n-x)!}\end{align*}$ です。
期待値とその導出
超幾何分布の期待値は、以下のように表されます:
$\begin{align*}
E[X] = n\frac {M}{N}
\end{align*}$
実際に導出してみましょう。
$\begin{align*}
E[X] &= \sum_{x=0}^{n} xP(X=x) \\
&= \sum_{x=0}^{n} x\frac {{}_{M}C_{x}・{}_{N-M}C_{n-x}}{{}_{N}C_{n}} \\
&= \sum_{x=0}^{n} x\frac{\frac{M!}{(M-x)!x!} \frac{(N-M)!}{((N-M)-(n-x))!(n-x)!}}{\frac{N!}{(N-n)!n!}} \\
&= \sum_{x=0}^{n} n\frac{M}{N}\frac{\frac{(M-1)!}{((M-1)-(x-1))!(x-1)!} \frac{(N-M)!}{((N-M)-(n-x))!(n-x)!}}{\frac{(N-1)!}{((N-1)-(n-1))!(n-1)!}} \\
&= n\frac{M}{N} \sum_{x=0}^{n} \frac{{}_{M-1}C_{x-1}・{}_{N-M}C_{n-x}}{{}_{N-1}C_{n-1}}
\end{align*}$
ここで、$\begin{align*}\frac{{}_{M-1}C_{x-1}・{}_{N-M}C_{n-x}}{{}_{N-1}C_{n-1}}\end{align*}$ は超幾何分布の確率関数です。
よって、確率の第二の公理を利用して
$\begin{align*}
&= n\frac {M}{N}
\end{align*}$
分散とその導出
超幾何分布の分散は、以下のように表されます:
$\begin{align*}
V[Y] = n\frac {M}{N}\left(1-\frac{M}{N}\right)\frac {N-n}{N-1}
\end{align*}$
実際に導出してみましょう。
まずは、$E[X^2]$を求めます。
$\begin{align*}
E[X^2] &= \sum_{x=0}^{n} x^2P(X=x) \\
&= \sum_{x=0}^{n} x^2\frac {{}_{M}C_{x}・{}_{N-M}C_{n-x}}{{}_{N}C_{n}} \\
&= \sum_{x=0}^{n} x^2\frac{\frac{M!}{(M-x)!x!} \frac{(N-M)!}{((N-M)-(n-x))!(n-x)!}}{\frac{N!}{(N-n)!n!}} \\
&= \sum_{x=0}^{n} x n\frac{M}{N}\frac{\frac{(M-1)!}{((M-1)-(x-1))!(x-1)!} \frac{(N-M)!}{((N-M)-(n-x))!(n-x)!}}{\frac{(N-1)!}{((N-1)-(n-1))!(n-1)!}} \\
&= n\frac{M}{N} \sum_{x=0}^{n} ((x-1) + 1)\frac{\frac{(M-1)!}{((M-1)-(x-1))!(x-1)!} \frac{(N-M)!}{((N-M)-(n-x))!(n-x)!}}{\frac{(N-1)!}{((N-1)-(n-1))!(n-1)!}} \\
&= n\frac{M}{N} \left(\sum_{x=1}^{n} (x-1) \frac{\frac{(M-1)!}{((M-1)-(x-1))!(x-1)!} \frac{(N-M)!}{((N-M)-(n-x))!(n-x)!}}{\frac{(N-1)!}{((N-1)-(n-1))!(n-1)!}} + \sum_{x=1}^{n} \frac{\frac{(M-1)!}{((M-1)-(x-1))!(x-1)!} \frac{(N-M)!}{((N-M)-(n-x))!(n-x)!}}{\frac{(N-1)!}{((N-1)-(n-1))!(n-1)!}} \right) \\
&= n\frac{M}{N} \left(\frac{(n-1)(M-1)}{(N-1)} + 1 \right)
\end{align*}$
よって、分散は
$\begin{align*}
V[X] &= E[X^2]-E[X]^2 \\
&= n\frac{M}{N} \left(\frac{(n-1)(M-1)}{(N-1)} + 1 \right)-\left( n\frac{M}{N}\right)^2 \\
&= n\frac{M}{N}\left(\left( \frac{(n-1)(M-1)}{N-1} + 1\right)-\left(n\frac{M}{N}\right)\right) \\
&= n\frac{M}{N}\left(\frac{N-n}{N-1}-\frac{M(N-n)}{N(N-1)}\right) \\
&= n\frac {M}{N}\left(1-\frac{M}{N}\right)\frac {N-n}{N-1}
\end{align*}$
ここで、$\begin{align*}\frac {N-n}{N-1}\end{align*}$ を有限母集団修正といいます。
確率母関数は複雑
超幾何分布の確率母関数は超幾何関数を用いて表現しますが、難しいため割愛します。
超幾何分布の二項近似
$n$ と $M/N$ を一定のまま、$N → \infty$ とすると、超幾何分布は二項分布に近似されます。
こちらを証明してみましょう。
$\begin{align*}
P(X=x) &= \frac {{}_{M}C_{x}・{}_{N-M}C_{n-x}}{{}_{N}C_{n}} \\
&= \frac{\frac{M!}{(M-x)!x!} \frac{(N-M)!}{((N-M)-(n-x))!(n-x)!}}{\frac{N!}{(N-n)!n!}} \\
&= \frac{n!}{(n-x)!x!} \frac{M!}{(M-x)!} \frac{(N-M)!}{(N-M-n+1)!} \frac{(N-n)!}{N!} \\
&= \binom{n}{x} \frac{M(M-1)…(M-x+1)(N-M)(N-M-1)…((N-M)-(n-x)+1)}{N(N-1)…(N -n+1)}\\
&= \binom{n}{x}\frac{\frac{M}{N}\left(\frac{M}{N}-\frac{1}{N}\right)…\left(\frac{M}{N}-\frac{x}{N} + \frac{1}{N}\right)\left(1-\frac{M}{N}\right)\left(1-\frac{M}{N}-\frac{1}{N}\right)…\left(1-\frac{M}{N}-\frac{n}{N} + \frac{x}{N} + \frac{1}{N}\right)}{1\left(1-\frac{1}{N}\right)…\left(1-\frac{n}{N} + \frac{1}{N}\right)}
\end{align*}$
ここで $N → \infty$ とすると、
$\begin{align*}
→ \binom{n}{x} \left(\frac{M}{N}\right)^x \left(1-\frac{M}{N}\right)^{n-x}
\end{align*}$
これは $p=M/N$ の二項分布です。つまり母集団 $N$ が非常に大きくなると、個々のサンプリングによる成功確率の変動が無視できるほど小さくなり、結果としてサンプリングが独立したものと見なせるようになります。これが超幾何分布の二項近似です。
まとめ
超幾何分布は、有限の母集団から戻さずに無作為に要素を抽出する際に適用される確率分布で、特に「復元しない抽出」が特徴です。くじ引きや品質管理など、身近な例でも超幾何分布を利用する場面は多く、現実世界での応用が広がっています。