Regression-Based Estimation of Causal Effects in the Presence of Selection Bias and Confounding

要約

治療$ x $が介入によって設定され、連続ランダム変数に焦点を当てた場合、ターゲット変数$ y $の予想される因果効果$ e [y | do(x)] $を推定する問題を考慮します。
選択バイアスや交絡なしの設定では、$ e [y | do(x)] = e [y | x] $を使用して、標準回帰法を使用して推定できます。
ただし、選択バイアスによって誘導される体系的な欠落や交絡がデータを歪めた場合、回帰は失敗します。
Boeken et al。
[2023]トレーニングデータが選択の対象となる場合、このプロセスの影響を受けないプロキシ変数は、特定の制約の下で、選択バイアスを修正して$ e [y | x] $、したがって$ e [y | do(x)] $を確実に推定できることを示しています。
ただし、データがさらに交絡の影響を受ける場合、この平等はもはや有効ではありません。
これらの結果に基づいて、より一般的な設定を検討し、選択バイアスと交絡の両方を組み込んだフレームワークを提案します。
具体的には、外部データおよびプロキシ変数へのアクセスの下で因果効果の識別可能性と回復可能性を保証する理論的条件を導き出します。
さらに、2段階の回帰推定器(TSR)を導入し、交絡を考慮しながら選択バイアスを調整するためにプロキシ変数を活用できます。
交絡がない場合、TSRは以前の作業と一致するが、より低い分散を達成することを示します。
大規模なシミュレーション研究では、選択バイアスとプロキシ変数と交絡する両方のシナリオに対するTSRの正確性を検証します。

要約(オリジナル)

We consider the problem of estimating the expected causal effect $E[Y|do(X)]$ for a target variable $Y$ when treatment $X$ is set by intervention, focusing on continuous random variables. In settings without selection bias or confounding, $E[Y|do(X)] = E[Y|X]$, which can be estimated using standard regression methods. However, regression fails when systematic missingness induced by selection bias, or confounding distorts the data. Boeken et al. [2023] show that when training data is subject to selection, proxy variables unaffected by this process can, under certain constraints, be used to correct for selection bias to estimate $E[Y|X]$, and hence $E[Y|do(X)]$, reliably. When data is additionally affected by confounding, however, this equality is no longer valid. Building on these results, we consider a more general setting and propose a framework that incorporates both selection bias and confounding. Specifically, we derive theoretical conditions ensuring identifiability and recoverability of causal effects under access to external data and proxy variables. We further introduce a two-step regression estimator (TSR), capable of exploiting proxy variables to adjust for selection bias while accounting for confounding. We show that TSR coincides with prior work if confounding is absent, but achieves a lower variance. Extensive simulation studies validate TSR’s correctness for scenarios which may include both selection bias and confounding with proxy variables.

arxiv情報

著者 Marlies Hafer,Alexander Marx
発行日 2025-03-26 13:43:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML パーマリンク