多項分布とは
多項分布は、2個以上の結果が起こる試行を $n$ 回行うときそれぞれの結果が起こる回数が従う分布で、$K$ を結果の数、$p_j$ を結果 $j$ が起こる確率として $M(n;p_1, … , p_K)$ と表します。結果が2つの多項分布は、二項分布と一致します。つまり、多項分布は二項分布の一般化と考えることができます。
多項分布の例
- サイコロ
サイコロを10回投げたとします。サイコロには1から6までの目がありますが、それぞれの目が出る確率はすべて$\begin{align*}\frac{1}{6}\end{align*}$です。このとき、例えば「1の目が2回」「2の目が3回」「3の目が1回」「4の目が2回」「5の目が1回」「6の目が1回」という結果が出る確率を計算することができます。 - アンケート
アンケートで「$A, B, C, D$」の4つの選択肢があるとします。100人がこのアンケートに答え、「$A$ を選ぶ確率が 0.4」「$B$ が 0.3」「$C$ が 0.2」「$D$ が 0.1」というような確率が与えられている場合、例えば「$A$ を40人」「$B$ を30人」「$C$ を20人」「$D$ を10人が選んだ」という結果の確率を多項分布を使って求めることができます。
確率関数
多項分布の確率関数は、以下のように表されます:
$\begin{align*}P(X_1 = x_1, …, X_K = x_K) = \frac{n!}{x_1!…x_K!}p_1^{x_1}…p_K^{x_K}\end{align*}$
ここで、$P(X_j=x_j)$ は確率変数 $X_j$ が特定の値 $x_j$ をとる確率を表します。
期待値とその導出
多項分布の期待値は、以下のように表されます:
$E[X_j] = np_j$
実際に導出してみましょう。
$\begin{align*}
E[X_j] &= \sum_{x_j=0}^{n}x_jP(X_1 = x_1, …, X_K = x_K)\\
&= \sum_{x_j=0}^{n}x_j\frac {n!}{x_1!…x_K!}p_1^{x_1}…p_K^{x_K}\\
&= \sum_{x_j=1}^{n}\frac {n(n-1)!}{x_1!…(x_j-1)!…x_K!}p_1^{x_1}…p_jp_j^{x_j-1}…p_K^{x_K}\\
&= np_j\sum_{x_j=1}^{n}\frac {(n-1)!}{x_1!…(x_j-1)!…x_K!}p_1^{x_1}…p_j^{x_j-1}…p_K^{x_K}
\end{align*}$
ここで、右辺 $\Sigma$ 以降は $M(n-1;p_1, … , p_K)$ の確率関数になっています。したがって確率の第二の公理より、
$= np_j$
分散とその導出
多項分布の分散は、以下のように表されます:
$V[X_j] = np_j(1-p_j)$
実際に導出してみましょう。
まずは、$E[X_j^2]$ を求めます。
$\begin{align*}
E[X_j^2] &= \sum_{x_j=0}^{n}x_j^2P(X_1 = x_1, …, X_K = x_K)\\
&= \sum_{x_j=0}^{n}x_j^2\frac{n!}{x_1!…x_K!}p_1^{x_1}…p_K^{x_K}\\
&= \sum_{x_j=1}^{n}x_j\frac{n(n-1)!}{x_1!…(x_j-1)!…x_K!}p_1^{x_1}…p_jp_j^{x_j-1}…p_K^{x_K}\\
&= np_j\sum_{x_j=1}^{n}((x_j-1)+1)\frac{(n-1)!}{x_1!…(x_j-1)!…x_K!}p_1^{x_1}…p_j^{x_j-1}…p_K^{x_K}\\
&= np_j\left(\left(\sum_{x_j=1}^{n}(x_j-1)\frac{(n-1)!}{x_1!…(x_j-1)!…x_K!}p_1^{x_1}…p_j^{x_j-1}…p_K^{x_K}\right) + \left(\sum_{x_j=1}^{n}\frac{(n-1)!}{x_1!…(x_j-1)!…x_K!}p_1^{x_1}…p_j^{x_j-1}…p_K^{x_K}\right)\right)\\
&= np_j((n-1)p_j + 1)
\end{align*}$
ここで、最後は $M(n-1;p_1, … , p_K)$ の期待値と確率の第二の公理を利用しています。
よって、
$\begin{align*}
V[X_j] &= E[X_j^2]-E[X_j]^2\\
&= np_j((n-1)p_j + 1)-(np_j)^2\\
&= n^2p_j^2-np_j^2 + np_j-n^2p_j^2\\
&= np_j(1-p_j)
\end{align*}$
共分散とその導出
多項分布の共分散は、以下のように表されます:
$Cov[X_i, X_j] = -np_ip_j$
実際に導出してみましょう。
まずは、$E[X_iX_j]$ を求めます。
$\begin{align*}
E[X_iX_j] &= \sum_{x_i, x_j}^{n}x_ix_jP(X_1 = x_1, …, X_K = x_K)\\
&= \sum_{x_i, x_j}^{n}x_ix_j\frac{n!}{x_1!…x_K!}p_1^{x_1}…p_K^{x_K}\\
&= \sum_{x_i, x_j}^{n}\frac{n(n-1)(n-2)!}{x_1!…(x_i-1)!(x_j-1)!…x_K!}p_1^{x_1}…p_ip_i^{x_i-1}p_jp_j^{x_j-1}…p_K^{x_K}\\
&= n(n-1)p_ip_j\sum_{x_i, x_j}^{n}\frac{(n-2)!}{x_1!…(x_i-1)!(x_j-1)!…x_K!}p_1^{x_1}…p_i^{x_i-1}p_j^{x_j-1}…p_K^{x_K}
\end{align*}$
ここで、右辺 $\Sigma$ 以降は $M(n-2;p_1, … , p_K)$ の確率関数なので、確率の第二の公理より、
$ = n(n-1)p_ip_j$
よって共分散は、
$\begin{align*}
Cov[X_i, X_j] &= E[X_iX_j]-E[X_i]E[X_j]\\
&= n(n-1)p_ip_j-np_inp_j\\
&= -np_ip_j
\end{align*}$
確率母関数とその導出
多項分布の確率母関数は、以下のように表されます:
$G(s_1, …, s_K) = E[s_1^{x_1}…s_K^{x_K}] = (p_1s_1 + … + p_Ks_K)^n$
実際に導出してみましょう。
$\begin{align*}
G(s_1, …, s_K) &= \sum_{x_1, … , x_K}^{n}s_1^{x_1}…s_K^{x_K}\frac{n!}{x_1!…x_K!}p_1^{x_1}…p_K^{x_K}\\
&= \sum_{x_1, … , x_K}^{n}\frac{n!}{x_1!…x_K!}(s_1p_1)^{x_1}…(s_Kp_K)^{x_K}\\
&= (p_1s_1 + … + p_Ks_K)^n
\end{align*}$
最後は多項定理を適用して変換しています。
確率母関数の形から、多項分布において再生性が成り立つことが分かります。
再生性については確率分布の再生性でも解説しているので、併せてご覧ください。
まとめ
多項分布は、2つ以上の異なる結果を持つ試行の結果を扱う際に非常に有用な確率分布です。日常の中でも、サイコロやアンケートなど多くの場面で使われることがあります。この分布を理解することで、より複雑な確率問題にも対応できるようになります。