【確率分布】ベータ分布

1 ベータ分布とは
2 ベータ分布の例
3 確率密度関数
4 期待値とその導出
5 分散とその導出
6 モーメント母関数とその導出
7 まとめ

ベータ分布とは

ベータ分布は０から１の間の値をとる連続型確率分布です。その形状は二つのパラメータ $a$ と $b$ によって決まり、$Be(a, b)$ と表されます。ベータ分布はベイズ法における事前分布としてよく使用されます。

ベータ分布の例

ベイズ推定
ベータ分布はベイズ推定における事前分布としてよく使用されます。例えばコインの表が出る確率を推定する際、表が出た回数を $a$ 、裏が出た回数を $b$ として、コインの表が出る確率 $p$ の事後分布がベータ分布になります。
A/Bテストにおいて、異なるバリエーション（例えば、ウェブサイトの二つの異なるデザイン）の成功率を比較する際、各バリエーションの成功確率をベータ分布でモデリングし、その後ベイズ更新を通じてその確率を推定します。

確率密度関数

ベータ分布の確率密度関数は、以下のように表されます：

$\begin{align*}
f(x) = \frac{x^{a-1}(1-x)^{b-1}}{B(a, b)}, \quad 0 < x < 1
\end{align*}$

ここで、$B(a, b)$ はベータ関数

$\begin{align*}
B(a, b) := \int_{0}^{1}x^{a-1}(1-x)^{b-1}dx, \quad a, b > 0
\end{align*}$

を表します。

ベータ関数には以下の性質があります。特に２はベータ分布の期待値の導出時などに使用されます。

任意の実数 $a > 0$ と $b > 0$ に対して、
$\begin{align*}
B(a, b) = 2\int_{0}^{\pi/2}\sin^{2a-1}\theta\cos^{2b-1}\theta d\theta
\end{align*}$
が成り立つ。
任意の実数 $a > 0$ と $b > 0$ に対して、
$\begin{align*}
B(a, b) = \frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}
\end{align*}$
が成り立つ。

期待値とその導出

ベータ分布の期待値は、以下のように表されます：

$\begin{align*}
E[X] = \frac{a}{a + b}
\end{align*}$

実際に導出してみましょう。

$\begin{align*}
E[X] &= \int_{0}^{1}xf(x)dx\\
&= \int_{0}^{1}x\frac{x^{a-1}(1-x)^{b-1}}{B(a, b)}dx\\
&= \int_{0}^{1}\frac{x^{a}(1-x)^{b-1}}{B(a, b)}dx\\
&= \frac{1}{B(a, b)}\int_{0}^{1}x^{a}(1-x)^{b-1}dx
\end{align*}$

ここで、$\begin{align*}\int_{0}^{1}x^{a}(1-x)^{b-1}dx\end{align*}$ はベータ関数 $B(a+1, b)$ なので、

$\begin{align*}
&= \frac{B(a+1, b)}{B(a, b)}\\
&= \frac{\frac{\Gamma(a+1)\Gamma(b)}{\Gamma(a+b+1)}}{\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}}\\
&= \frac{\Gamma(a+1)\Gamma(a+b)}{\Gamma(a)\Gamma(a+b+1)}\\
&= \frac{a\Gamma(a)\Gamma(a+b)}{\Gamma(a)(a+b)\Gamma(a+b)}\\
&= \frac{a}{a + b}
\end{align*}$

分散とその導出

ベータ分布の分散は、以下のように表されます：

$\begin{align*}
V[X] = \frac{ab}{(a + b)^2(a + b + 1)}
\end{align*}$

実際に導出してみましょう。

まずは、$E[X^2]$ を求めます。

$\begin{align*}
E[X^2] &= \int_{0}^{1}x^2f(x)dx\\
&= \int_{0}^{1}x^2\frac{x^{a-1}(1-x)^{b-1}}{B(a, b)}dx\\
&= \int_{0}^{1}\frac{x^{a+1}(1-x)^{b-1}}{B(a, b)}dx\\
&= \frac{1}{B(a, b)}\int_{0}^{1}x^{a+1}(1-x)^{b-1}dx\\
&= \frac{B(a+2, b)}{B(a, b)}\\
&= \frac{\frac{\Gamma(a+2)\Gamma(b)}{\Gamma(a+b+2)}}{\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}}\\
&= \frac{\Gamma(a+2)\Gamma(a+b)}{\Gamma(a)\Gamma(a+b+2)}\\
&= \frac{(a+1)a\Gamma(a)\Gamma(a+b)}{\Gamma(a)(a+b+1)(a+b)\Gamma(a+b)}\\
&= \frac{(a+1)a}{(a+b+1)(a+b)}
\end{align*}$

よって、

$\begin{align*}
V[X] &= E[X^2]-E[X]^2\\
&= \frac{(a+1)a}{(a+b+1)(a+b)}-\left(\frac{a}{a + b}\right)^2\\
&= \frac{(a+1)a(a+b)}{(a+b+1)(a+b)^2}-\frac{(a+b+1)a^2}{(a+b+1)(a + b)^2}\\
&= \frac{ab}{(a + b)^2(a + b + 1)}
\end{align*}$

モーメント母関数とその導出

ベータ分布のモーメント母関数は、以下のように表されます：

$\begin{align*}
M(t) = 1 + \sum_{k=1}^{\infty} \frac{t^k}{k!} \prod_{m=0}^{k-1} \frac{a + m}{a + b + m}
\end{align*}$

実際に導出してみましょう。

$\begin{align*}
M(t) &= \int_{0}^{1}e^{tx}\frac{x^{a-1}(1-x)^{b-1}}{B(a, b)}dx\\
&= \frac{1}{B(a, b)}\int_{0}^{1}e^{tx}x^{a-1}(1-x)^{b-1}dx
\end{align*}$

ここで、$e^{tx}$ はマクローリン展開を行います。

$\begin{align*}
&= \frac{1}{B(a, b)}\int_{0}^{1}\sum_{k=0}^{\infty}\frac{(tx)^k}{k!}x^{a-1}(1-x)^{b-1}dx\\
&= \frac{1}{B(a, b)}\int_{0}^{1}\sum_{k=0}^{\infty}\frac{t^k}{k!}x^{a+k-1}(1-x)^{b-1}dx\\
&= \frac{1}{B(a, b)}\sum_{k=0}^{\infty}\frac{t^k}{k!}\int_{0}^{1}x^{a+k-1}(1-x)^{b-1}dx\\
&= \frac{1}{B(a, b)}\sum_{k=0}^{\infty}\frac{t^k}{k!}B(a+k, b)\\
&= \frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\sum_{k=0}^{\infty}\frac{t^k}{k!}\frac{\Gamma(a+k)\Gamma(b)}{\Gamma(a+k+b)}\\
&= \sum_{k=0}^{\infty}\frac{t^k}{k!}\frac{\Gamma(a+k)\Gamma(b)}{\Gamma(a+k+b)}\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}
\end{align*}$

ここで $k = 0$ のとき、

$\begin{align*}
& \frac{t^0}{0!}\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\\
&= 1
\end{align*}$

となるので、外に出しておきます。

$\begin{align*}
\sum_{k=0}^{\infty}\frac{t^k}{k!}\frac{\Gamma(a+k)\Gamma(b)}{\Gamma(a+k+b)}\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} &= 1 + \sum_{k=1}^{\infty}\frac{t^k}{k!}\frac{\Gamma(a+k)\Gamma(b)}{\Gamma(a+k+b)}\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}
\end{align*}$

$\begin{align*}
\frac{\Gamma(a+k)\Gamma(b)}{\Gamma(a+k+b)}\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}
\end{align*}$ の式変形を行なっていきます。

$\begin{align*}
\frac{\Gamma(a+k)\Gamma(b)}{\Gamma(a+k+b)}\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)} &= \frac{(a+k-1)!(b-1)!}{(a+b+k-1)!}\frac{(a+b-1)!}{(a-1)!(b-1)!}\\
&= \frac{(a+k-1)!(a+b-1)!}{(a+b+k-1)!(a-1)!}\\
&= \frac{(a+k-1)\dots a}{(a+b+k-1)\dots (a+b)}\\
&= \frac{a}{a+b}\frac{a+1}{a+b+1}\dots\frac{a+(k-1)}{a+b+(k-1)}\\
&= \prod_{m=0}^{k-1}\frac{a+m}{a+b+m}
\end{align*}$

よって最終的にモーメント母関数は、

$\begin{align*}
M(t) = 1 + \sum_{k=1}^{\infty}\frac{t^k}{k!}\prod_{m=0}^{k-1}\frac{a+m}{a+b+m}
\end{align*}$

を得ます。

まとめ

ベータ分布は、０から１の範囲内にある確率変数をモデル化するための分布です。その柔軟性と応用範囲の広さから、特にベイズ統計やA/Bテストなどで重宝されています。