【因果推論】さまざまな平均処置効果

因果推論について学んでいると、ATEやATTといった似た言葉が次々に出てきます。業務で傾向スコアマッチングやIPWを使用するとき、「この分析手法はどの平均処置効果を推定するんだっけ?」と混乱することがあります。この記事では、ATEやATTを含むさまざまな平均処置効果を整理します。「そもそも因果推論とは?」については以下の記事で解説しています。

ATE:平均処置効果


ATE(Average Treatment Effect)とは

ATEとは、ある処置(治療、広告、介入など)が母集団全体に対してどの程度の影響を与えるのかを示す指標です。処置が母集団の全対象者に適用した場合の期待効果として解釈され、「処置を受けた場合の結果の平均」と「処置を受けなかった場合の結果の平均」の差を表します。

数式で表すと以下のようになります:

$\begin{align*}ATE = E[Y(1)]-E[Y(0)]\end{align*}$

ここで、

  • $Y(1)$ は処置を受けた場合の潜在的な結果
  • $Y(0)$ は処置を受けなかった場合の潜在的な結果
  • $E[\cdot]$ は期待値

ATEの解釈

ATEは、「もし全員に処置を適用した場合、どれくらい効果があるのか?」を表します。例えば以下のようなものが考えられます。

  • 医療:「この新薬を患者全員が服用した場合、平均的にどれくらい血圧が下がるか」
  • マーケティング:「この広告を全ユーザに見せた場合、平均的にどれくらい購入率が上がるか」
  • 政策:「この教育プログラムを全国の学生に提供した場合、平均的にどれくらい成績が上がるか」

ATEにおいて重要なのは、処置を受けた人だけではなく、対象全体を考える点です。

ATEの推定方法

ATEを推定するためには、処置を受けた場合と処置を受けなかった場合の比較が必要です。しかし、現実は1人の対象が同時に「処置を受けた場合」と「受けなかった場合」の両方を観察することができません。これを反実仮想の問題といいます。

そのため、ATEの推定には以下の方法が取られます:

  1. ランダム化比較試験(RCT:Randomized Controlled Trial)
    • 理想的な推定方法です。ランダムに処置群・対照群を割り当てることで選択バイアスが排除され、ATEを直接推定できます。
    • 単純な平均差分で推定量が得られるため、因果効果の解釈が明確です。
    • ただしRCTはコスト・時間がかかること、外的要因による完全ランダム化の困難性というデメリットがあります。

  2. 回帰分析
    • 処置の有無、交絡因子を説明変数とした回帰分析で推定します。
    • 統計ソフトウェアやコーディングでの実装が比較的簡単であること、回帰モデルの推定パラメータの解釈が直感的というメリットがあります。
    • ただし回帰分析でATEを推定するには、アウトカムと処置変数が条件付き独立であることやモデルが適切に設定されていることが条件となります。

  3. 逆確率重み付け(IPW:Inverse Probability Weighting)
    • 傾向スコア(処置を受ける確率)を推定し、その逆数で重み付けすることで推定します。処置群と対照群が同じ分布を持つように補正することができます。
    • 傾向スコアの推定が不適切だとバイアスが生じるため注意が必要です。また、重み付け後は共変量のバランスが取れているかを標準化平均差などで検証します。

ATT:処置群の平均処置効果


ATT(Average Treatment Effect on the Treated)とは

ATTとは、実際に処置を受けた対象に限定した処置効果を表す指標です。ATEとは異なり、「処置を受けた人が受けなかった場合と比較してどれくらいの効果があったか?」に焦点を当てます。数式では以下のように定義されます:

$\begin{align*}ATT = E[Y(1)|D = 1]-E[Y(0)|D = 1]\end{align*}$

ここで $D$ は処置変数で、$D = 1$ は処置を受けた対象に限定するという条件です。

ATTは、「実際に処置を受けた人がもし処置を受けなかったら?」という仮定のもとで処置の効果を推定するものです。これは処置群のみに限定した効果を測る指標であり、ATEとは異なり母集団全体を考慮しません。

ATTの解釈

ATTは「実際に処置を受けた人がもし処置を受けなかったとしたらどうなっていたか?」と考えます。例えば以下のようなものが考えられます。

  • 医療:「新薬を服用した患者が、もし服用していなかったら血圧はどれくらい違ったか?」
  • マーケティング:「広告を見たユーザが、もし見ていなかったら購入率はどれくらい違ったか?」
  • 政策:「この教育プログラムを受けた学生が、もし受けていなかったら成績はどう変わっていたか?」

ATTは処置を受けた人に対して適用されるため、処置が本当に必要な人たちにとってどの程度有効かを知るのに向いています。

ATTの推定方法

ATTを求めるためには、「実際に処置を受けた人がもし処置を受けなかったらどうなったか?」という反実仮想を推定する必要があります。

  1. 傾向スコアマッチング(PSM:Propensity Score Matching)
    • ATTを推定するのに適した手法です。傾向スコアが似た処置群と対照群をペアにして比較します。
    • ただしその手法の特徴から、マッチングにより多くのサンプルが除外される可能性があります。その結果、サンプルサイズ不足による統計的検出力の低下が懸念されます。
    • キャリパーやマッチング方法、共変量の選択が重要な要素です。

  2. 差分の差分法(DiD:Difference-in-Differences)
    • 処置群と対照群の処置前後の変化を比較する手法です。処置がなかった場合、処置群と対照群のアウトカムの時間的変化は同じであるという平行トレンド仮定がされます。
    • DiDにもう一つ比較軸を加えた三重差分法(DDD, Triple Difference)や、傾向スコアマッチングと組み合わせたDiDなどの変種があります。
    • 平行トレンド仮定が崩れるとDiDによる推定値にはバイアスが含まれ、ATTを正しく推定できません。

  3. 回帰分析
    • ATT推定にも回帰分析は使用可能ですが、処置効果に異質性が存在する場合には処置変数と共変量の交互作用項をモデルに入れる必要があります。
    • 傾向スコアによる重み付け(IPW)を用いた回帰分析でもATTを推定することができます。

CATE:条件付き平均処置効果


CATE(Conditional Average Treatment Effect)とは

CATEとは、特定の条件のサブグループにおける処置効果を示す指標です。ATEやATTとは異なり、特定の属性を持つグループにおいて処置がどの程度の影響を与えるかを評価します。数式で表すと次のように定義されます:

$\begin{align*}CATE = E[Y(1)-Y(0)|X = x]\end{align*}$

これはつまり、特定の属性を持つグループ $X = x$ の下での平均処置効果を表します。

CATEの解釈

CATEは処置効果の異質性を理解するために重要な指標です。処置が全員に同じ影響を与えるわけではないため、特定のグループごとに効果を分析することがCATEの目的です。

  • 医療:「新薬は若い人には効果が高いが、高齢者にはあまり効果がないのでは?」
  • マーケティング:「この広告は新規顧客には効果があるが、既存顧客にはあまり影響がないのでは?」
  • 政策:「この教育プログラムは低所得層の学生には効果的だが、高所得層には影響が少ないのでは?」

CATEを使えば、処置の影響が異なる層を特定し最適なターゲティングや政策の改善ができる。

CATEの推定方法

CATEを求めるには、特定のグループごとに処置効果を推定する必要があります。最近では機械学習を使ってCATEを推定する手法が使われています。

  1. 因果フォレスト(Causal Forest)
    • 因果フォレストはランダムフォレストを因果推論の枠組みに特化して拡張した手法で、CATEや個人レベルの処置効果(ITE:Individual Treatment Effect)を柔軟に推定できます。
    • 通常のランダムフォレストが予測精度向上を目的として分割を行うのに対し、因果フォレストは処置効果のばらつき(異質性)が最大化されるように分割を行います。そのため、処置効果の異質性の把握に強みがあります。

  2. Meta-Learner
    • Meta-Learnerは既存の機械学習モデルを活用し、CATEを推定する手法の総称です。特に、メタ学習の枠組みを用いることで因果推論の問題を予測タスクに変換し、さまざまな既存の機械学習モデル(例:ランダムフォレスト、勾配ブースティングなど)を適用できる利点があります。Meta-Learnerの代表的な手法としては、T-Learner、S-Learner、X-Learnerがあります。

LATE:局所平均処置効果


LATE(Local Average Treatment Effect)とは

LATEとは、外的な要因(操作変数:Instrumental Variable, IV)が変わったことで処置を受けるようになった人の処置効果を測定します。

奨学金の抽選を例に考えてみましょう。例えば、ランダム化比較試験で奨学金の抽選を行っても当選者全員が奨学金を利用するとは限りません(気が変わった、あるいは状況の変化など)。そうすると、処置群と対照群の比較にバイアスがかかり、奨学金の真の効果が見えなくなります。そこで、抽選当選で実際に奨学金を受けた人(Complier)という特定のグループに限定した処置効果を推定することで、実際に処置が適用された人の効果(LATE)をクリーンに抽出できます。

ポイントは、外的要因に関わらず処置を受ける人(Always-Taker)や受けない人(Never-Taker)、外的要因の変更に反して動く人(Defier)はグループから除外されるということです。

LATEは数式で表すと以下のようになります:

$\begin{align*}LATE = \frac{E[Y|Z = 1]-E[Y|Z = 0]}{E[D|Z = 1]-E[D|Z = 0]}\end{align*}$

ここで、$Z$ は操作変数です。

LATEの解釈

LATEは「処置を受けるかどうかを自分の意思で決めた人」ではなく、「外的な要因が変わったことで処置を受けるようになった人」の処置効果を推定するため、以下のような解釈になります。

  • 医療:「健康診断の無料キャンペーンによって病院に行くようになった人に対して、早期発見がどのくらい効果があったか?」
    • 操作変数:健康診断の無料キャンペーンの実施
    • Complier:キャンペーンがなければ病院に行かなかったが、無料キャンペーンの実施によって健康診断を受けた人
    • 除外されるグループ例:
      • Always-Taker:もともと健康意識が高く、キャンペーンの有無に関係なく健康診断を受ける人
      • Never-Taker:キャンペーンがあっても受けない人
      • Defier:キャンペーンが始まったことで「逆に怪しい」と思って健康診断に行かなくなった人

  • マーケティング:「ポイント還元キャンペーンによって初めて購買した顧客にとって、その後のリピート率にどれくらい影響があるか?」
    • 操作変数:ポイント還元キャンペーンの実施
    • Complier:キャンペーンがなければ買わなかったが、キャンペーンの実施によって初めて購買した人
    • 除外されるグループ例:
      • Always-Taker:キャンペーンがあってもなくても購入する人
      • Never-Taker:キャンペーンがあっても購入しない人
      • Defier:キャンペーンがあると「安売りするなら品質が悪いのでは?」と思って逆に買わなくなった人

  • 政策:「奨学金の対象条件が変わったことで進学した学生に対する進学の影響は?」
    • 操作変数:奨学金の対象条件の変更(例:所得基準の引き上げによる対象者の増加)
    • Complier:奨学金の対象条件が変わったことで新たに奨学金を受け取ることになり進学した学生
    • 除外されるグループ例:
      • Always-Taker:奨学金の条件変更がなくても進学する人
      • Never-Taker:奨学金の条件が変わっても進学しない人
      • Defier:奨学金の条件変更により「対象が広がると自分の奨学金額が減るかも」と考えて進学を諦めた人

LATEは操作変数によって処置を受けるかどうかが決まる人に限定した効果を測るため、対象が限定されるが、より因果的に強い効果を推定できる点が特徴です。

LATEの推定方法

LATEを推定するためには、Complierに限定した平均処置効果を推定する必要があります。

  1. 操作変数法(IV:Instrumental Variables)
    • 操作変数法は、処置の選択が交絡している場合に因果効果を推定するための手法です。特に、処置の割り当てがランダムでない場合でも、適切な操作変数を用いることでLATEを推定できます。
    • 操作変数は、処置変数には影響を与えるが結果変数には直接影響を与えないという排他制約を満たす必要があります。
    • 操作変数法によるLATE推定は、2段階最小二乗法(2SLS:Two-Stage Least Squares)を用いて行われます。

  2. 回帰不連続デザイン(RDD:Regression Discontinuity Design)
    • 回帰不連続デザインは、ある閾値の前後で処置の割り当てが変わる状況を利用して因果効果を推定する手法です。「閾値の直前と直後にいる個体は本質的に似ているため、その違いが処置の効果を示すのでは」という考え方をします。
    • 閾値付近のデータしか使えない、閾値操作をしてはいけないという制約があります。
    • 回帰不連続デザインは、ファジーRDD(閾値付近で処置割り当てが確率的に行われる)とシャープRDD(処置割り当てが完全に閾値で決まる)の2つのタイプに分けられます。ファジーRDDはLATEを推定しますが、シャープRDDは厳密には閾値付近における全員の効果(意図対処効果, ITT:Intention-to-Treat)を推定しています。

その他の平均処置効果


上で挙げた他にも多くの処置効果が存在します。その他の処置効果を簡単に表形式でまとめます。

指標説明数式
ATU(Average Treatment Effect on the Untreated)処置を受けなかった対象における平均処置効果$E[Y(1)|D = 0]-E[Y(0)|D = 0]$
PATE(Population Average Treatment Effect)母集団全体における平均処置効果(PATEは母集団全体における真の平均処置効果であり、ATEは標本や研究デザインによって推定されるため、理論的には同じでも実際には異なることがある)$E[Y(1)]-E[Y(0)]$
SATE(Sample Average Treatment Effect)標本データにおける平均処置効果$\begin{align*}\frac{1}{n}\sum [Y_i(1)-Y_i(0)]\end{align*}$
MTE(Marginal Treatment Effect)処置を受けるかどうかの境界にいる人の平均処置効果$E[Y(1)-Y(0)|U = u]$
QTE(Quantile Treatment Effect)処置効果の分布の特定分位点における処置効果$Q_{\tau}[Y(1)]-Q_{\tau}[Y(0)]$
その他の処置効果

まとめ


因果推論における平均処置効果はATEやATTをはじめとしてさまざまな種類が存在し、それぞれの指標は分析の目的によって適用が異なります。適切な手法を選ぶことで、より正確な因果効果の推定が可能になります。

タイトルとURLをコピーしました