コーシー分布とは
コーシー分布は重い裾を持つ確率分布の一種であり、期待値、分散およびモーメント母関数が存在しないという特徴を持っています。しかしその重い裾は、外れ値が多いデータを扱う際に適しています。物理学では、共鳴現象やローレンツ分布として用いられることがあります。コーシー分布は位置パラメータ $\mu$ と尺度パラメータ $\sigma$ を持ち、$C(\mu, \sigma)$ と表します。$C(0, 1)$ は標準コーシー分布と呼ばれます。
コーシー分布の例
- 電波干渉による信号の影響
無線通信で電波干渉が生じた際、受信信号の強度分布がコーシー分布に従うことがあります。これにより、干渉除去のアルゴリズムを最適化する際のモデルとして活用できます。 - 物理学における共鳴現象
共鳴現象のピークの形状を記述する際、ローレンツ分布としてコーシー分布が用いられることがあります。これにより、共鳴特性を正確にモデル化できます。
確率密度関数
コーシー分布の確率密度関数は、以下のように表されます:
$\begin{align*}
f(x) = \frac{1}{\pi \sigma \left(1 + \left(\frac{x-\mu}{\sigma}\right)^2\right)},\quad x, \mu \in \mathbb{R},\ \sigma > 0
\end{align*}$
ここで、
- $\mu$ は位置パラメータ、$\sigma$ は尺度パラメータ
期待値、分散およびモーメント母関数
コーシー分布は、期待値と分散およびモーメント母関数が存在しません。その理由は、確率密度関数の特性に起因します。具体的には、コーシー分布は裾が非常に重い(極端な値が生じる確率が無視できないほど高い)ため、期待値を計算する積分が収束しないためです。
実際に標準コーシー分布の期待値計算をしてみましょう。
$\begin{align*}
E[X] &= \int_{-\infty}^{\infty}xf(x)dx\\
&= \int_{-\infty}^{\infty}x\frac{1}{\pi\left(1+x^2\right)}dx\\
&= \frac{1}{\pi}\int_{-\infty}^{\infty}\frac{x}{1+x^2}dx\\
&= \frac{1}{2\pi}\left[\log\left(1+x^2\right)\right]_{-\infty}^{\infty}
\end{align*}$
このように期待値の積分が発散するため、定義されません。
同様にして、分散とモーメント母関数も存在しないことを確認できます。
特性関数とその導出
コーシー分布の特性関数は、以下のように表されます:
$\begin{align*}
\phi(t) = \exp(it\mu-|t|\sigma)
\end{align*}$
実際に導出してみましょう。導出は複素関数論に基づきます。
$\begin{align*}
\phi(t) &= \int_{-\infty}^{\infty}e^{itx}f(x)dx\\
&= \int_{-\infty}^{\infty}e^{itx}\frac{1}{\pi \sigma \left(1 + \left(\frac{x-\mu}{\sigma}\right)^2\right)}dx
\end{align*}$
変数変換 $\begin{align*}\frac{x-\mu}{\sigma} = z\end{align*}$ を行い、積分を複素平面上で評価します。$\begin{align*}dx = \sigma dz\end{align*}$ より
$\begin{align*}
&= \int_{-\infty}^{\infty}e^{it(\sigma z + \mu)}\frac{1}{\pi \sigma(1 + z^2)}\sigma dz\\
&= \frac{e^{it\mu}}{\pi}\int_{-\infty}^{\infty}\frac{e^{it\sigma z}}{1 + z^2}dz\qquad (*)
\end{align*}$
ここで、$\begin{align*}\oint_{C_R} \frac{e^{it\sigma z}}{1 + z^2}dz\end{align*}$ という周回積分を考えます。この関数は極 $z=\pm\ i$ を持ちます。$e^{it\sigma z}$ の振る舞いが $t$ の符号に依存するため、$t$ のそれぞれの場合分けで見ていきましょう。
$(1)\ t > 0$ の場合
上記の周回積分の関数は以下のような半径 $R$ の上側半円で与えられます。

周回積分は、直線部分 $C_1[-R,\ R]$ と曲線部分 $C_2$ に分けることができます。
$\begin{align*}
\oint_{C_R} \frac{e^{it\sigma z}}{1 + z^2}dz &= \int_{C_1} \frac{e^{it\sigma z}}{1 + z^2}dz + \int_{C_2} \frac{e^{it\sigma z}}{1 + z^2}dz\\
&= \int_{-R}^{R} \frac{e^{it\sigma z}}{1 + z^2}dz + \int_{C_2} \frac{e^{it\sigma z}}{1 + z^2}dz
\end{align*}$
左辺に対し、留数定理を適用します。$t > 0$ の場合は極 $z=i$ を考えれば良いので、留数は以下のようになります:
$\begin{align*}
\operatorname{Res}\left(\frac{e^{it\sigma z}}{1 + z^2}, i \right) = \lim_{z \to i} (z-i) \frac{e^{it\sigma z}}{1 + z^2} = \lim_{z \to i} (z-i) \frac{e^{it\sigma z}}{(z+i)(z-i)} = \frac{e^{-t\sigma}}{2i}
\end{align*}$
よって留数定理により、
$\begin{align*}
\oint_{C_R} \frac{e^{it\sigma z}}{1 + z^2} dz &= 2\pi i \operatorname{Res} \left( \frac{e^{it\sigma z}}{1 + z^2}, i \right)\\
&= 2\pi i\frac{e^{-t\sigma}}{2i} = \pi e^{-t\sigma}
\end{align*}$
ここまでをまとめると、
$\begin{align*}
\pi e^{-t\sigma} = \int_{-R}^{R} \frac{e^{it\sigma z}}{1 + z^2}dz + \int_{C_2} \frac{e^{it\sigma z}}{1 + z^2}dz
\end{align*}$
となります。
ここで、$R\to\infty$ とします。そうすると、
$\begin{align*}
\lim_{R\to\infty}\pi e^{-t\sigma} = \lim_{R\to\infty}\int_{-R}^{R}\frac{e^{it\sigma z}}{1 + z^2}dz + \lim_{R\to\infty}\int_{C_2}\frac{e^{it\sigma z}}{1 + z^2}dz
\end{align*}$
となり、右辺第一項が $(*)$ の積分部分と同じになります。
次に右辺第二項について考えます。極座標変換で $z = Re^{i\theta}$ とすると、$dz = Rie^{i\theta}d\theta$ とオイラーの公式 $e^{ix} = \cos x + i\sin x$ より、
$\begin{align*}
\int_{C_2}\frac{e^{it\sigma z}}{1 + z^2}dz = \int_{0}^{\pi}\frac{e^{it\sigma R(\cos\theta + i\sin\theta)}}{1 + (Re^{i\theta})^2}Rie^{i\theta}d\theta
\end{align*}$
ここで、積分の絶対値は三角不等式より
$\begin{align*}
\left|\int_{0}^{\pi}\frac{e^{it\sigma R(\cos\theta + i\sin\theta)}}{1 + (Re^{i\theta})^2}Rie^{i\theta}d\theta\right| &\le \int_{0}^{\pi}\left|\frac{e^{it\sigma R(\cos\theta + i\sin\theta)}}{1 + (Re^{i\theta})^2}Rie^{i\theta}\right|d\theta\\
&\le \int_{0}^{\pi}\frac{R}{R^2-1}e^{-t\sigma R\sin\theta}d\theta\\
&\le \frac{R}{R^2-1}\int_{0}^{\pi}e^{-t\sigma R\sin\theta}d\theta
\end{align*}$
となり、$R$ の極限を取ると0になります。よって
$\begin{align*}
\lim_{R\to\infty}\pi e^{-t\sigma} &= \lim_{R\to\infty}\int_{-R}^{R}\frac{e^{it\sigma z}}{1 + z^2}dz + \lim_{R\to\infty}\int_{C_2}\frac{e^{it\sigma z}}{1 + z^2}dz\\
&= \lim_{R\to\infty}\int_{-R}^{R}\frac{e^{it\sigma z}}{1 + z^2}dz\\
&= \int_{-\infty}^{\infty}\frac{e^{it\sigma z}}{1 + z^2}dz\\
&= \pi e^{-t\sigma}
\end{align*}$
この結果を使用すると、
$\begin{align*}
\phi(t) &= \frac{e^{it\mu}}{\pi}\int_{-\infty}^{\infty}\frac{e^{it\sigma z}}{1 + z^2}dz\\
&= \frac{e^{it\mu}}{\pi}\pi e^{-t\sigma}\\
&= \exp(it\mu-t\sigma)
\end{align*}$
$(2)\ t < 0$ の場合
この場合では周回積分の関数は下側半円を考えることができ、極 $z = -i$ の上で同様に計算すると特性関数は $\exp(it\mu+t\sigma)$ となります。
よって $t$ のそれぞれの場合をまとめると、コーシー分布の特性関数は以下のようになります:
$\begin{align*}
\phi(t) = \exp(it\mu-|t|\sigma)
\end{align*}$
標準正規分布とコーシー分布の関係
互いに独立に標準正規分布 $N(0, 1)$ に従う確率変数 $X$ と $Y$ がある時、$\begin{align*}V = \frac{X}{Y}\end{align*}$ は標準コーシー分布 $C(0, 1)$ に従います。実際に計算してみましょう。
2変数の変数変換を行います。$\begin{align*}V = \frac{X}{Y},\ W = Y\end{align*}$ と置きます。ヤコビアンの行列式は、$\begin{align*}|J| = \begin{vmatrix}\frac{\partial x}{\partial v} & \frac{\partial x}{\partial w} \\\frac{\partial y}{\partial v} & \frac{\partial y}{\partial w}\end{vmatrix} = \begin{vmatrix}w & v \\0 & 1\end{vmatrix} = w\end{align*}$ なので、$V$ と $W$ の同時確率密度関数は、
$\begin{align*}
f_{V, W}(v, w) &= f_{X, Y}(x, y)\cdot |J|\\
&= \frac{1}{2\pi}\exp\left(-\frac{(vw)^2 + w^2}{2}\right) \cdot |w|\\
&= \frac{|w|}{2\pi}\exp\left(-\frac{w^2(1 + v^2)}{2}\right)
\end{align*}$
$V$ の周辺分布を得るために、$f_{V, W}(v, w)$ を $W$ に関して積分して $V$ の周辺確率密度関数 $f_V(v)$ を求めます。
$\begin{align*}
f_V(v) &= \int_{-\infty}^{\infty}f_{V, W}(v, w)dw\\
&= \int_{-\infty}^{\infty}\frac{|w|}{2\pi}\exp\left(-\frac{w^2(1 + v^2)}{2}\right)dw\\
&= \frac{1}{2\pi}\int_{-\infty}^{\infty}|w|\exp\left(-\frac{w^2(1 + v^2)}{2}\right)dw
\end{align*}$
ここで、積分の中身が偶関数であるため積分範囲を $[0, \infty)$ に変更し2倍します。
$\begin{align*}
&= \frac{1}{\pi}\int_{0}^{\infty}w\exp\left(-\frac{w^2(1 + v^2)}{2}\right)dw\\
&= \frac{1}{\pi}\left[-\frac{1}{1+v^2}\exp\left(-\frac{w^2(1 + v^2)}{2}\right)\right]_{0}^{\infty}\\
&= \frac{1}{\pi(1+v^2)}
\end{align*}$
となり、標準コーシー分布の確率密度関数を得ます。
まとめ
コーシー分布は重い裾を持つ分布で、その特徴から物理学において使用されます。平均や分散、モーメント母関数を持たない点も他の確率分布には無い特徴です。外れ値が多いデータの分布を記述する際には正規分布よりも適していますが、平均や分散を用いた解析はできないため統計的推測には注意が必要です。標準正規分布との関係性も合わせて覚えると良いでしょう。