Detecting hidden confounding in observational data using multiple environments

要約

観察データからの因果推論における一般的な仮定は、隠れた交絡は存在しないということです。
しかし、一般に、単一のデータセットからこの仮定を検証することは不可能です。
データ生成プロセスの根底にある独立した因果メカニズムの仮定に基づいて、異なる環境からの複数の観測データセットがある場合に、観測されていない交絡因子を検出する方法を実証します。
隠れた交絡がある場合にのみ存在しない、テスト可能な条件付き独立性の理論を提示し、その仮定に違反するケース、つまり縮退および依存メカニズム、および忠実性違反を検証します。
さらに、これらの独立性をテストし、シミュレーション研究と現実世界のデータセットに基づく半合成データを使用して、その経験的な有限サンプルの動作を研究する手順を提案します。
ほとんどの場合、提案された手順は、特に交絡バイアスが大きい場合に、隠れた交絡の存在を正確に予測します。

要約(オリジナル)

A common assumption in causal inference from observational data is that there is no hidden confounding. Yet it is, in general, impossible to verify this assumption from a single dataset. Under the assumption of independent causal mechanisms underlying the data-generating process, we demonstrate a way to detect unobserved confounders when having multiple observational datasets coming from different environments. We present a theory for testable conditional independencies that are only absent when there is hidden confounding and examine cases where we violate its assumptions: degenerate & dependent mechanisms, and faithfulness violations. Additionally, we propose a procedure to test these independencies and study its empirical finite-sample behavior using simulation studies and semi-synthetic data based on a real-world dataset. In most cases, the proposed procedure correctly predicts the presence of hidden confounding, particularly when the confounding bias is large.

arxiv情報

著者 Rickard K. A. Karlsson,Jesse H. Krijthe
発行日 2023-05-29 14:40:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML パーマリンク