RCT Rejection Sampling for Causal Estimation Evaluation

要約

交絡は、観察データから因果関係を公平に推定する上で大きな障害となります。
テキストデータ、ゲノミクス、行動社会科学などの高次元の共変量を含む設定について、研究者らは機械学習手法を因果推定の目標に適応させることで交絡を調整する方法を提案している。
ただし、これらの調整方法の経験的評価は困難であり、限界があります。
この研究では、評価設計を簡素化し、実際のデータを使用する有望な経験的評価戦略に基づいて構築します。つまり、ランダム化比較試験 (RCT) をサブサンプリングして交絡観察データセットを作成すると同時に、RCT からの平均的な因果効果をグラウンドトゥルースとして使用します。
私たちは、RCT 拒絶サンプリングと呼ばれる新しいサンプリング アルゴリズムを提供し、観測データに因果関係の特定が成立するという理論的な保証を提供して、グラウンドトゥルース RCT との有効な比較を可能にします。
合成データを使用して、オラクル推定量が交絡サンプルで評価される場合、アルゴリズムが実際に低いバイアスをもたらすことを示しますが、これは以前に提案されたアルゴリズムでは常に当てはまるわけではありません。
この識別結果に加えて、独自のデータセットで RCT 棄却サンプリングを使用することを計画している評価設計者向けに、いくつかの有限データに関する考慮事項を強調します。
概念実証として、評価パイプラインの例を実装し、約 70,000 の観測値と高次元の共変量としてのテキスト データで構成される新しい現実世界の RCT (公開公開) を使用して、これらの有限データの考慮事項を詳しく説明します。
これらの貢献は共に、因果関係推定のための経験的評価の改善というより広範な課題に向けて構築されます。

要約(オリジナル)

Confounding is a significant obstacle to unbiased estimation of causal effects from observational data. For settings with high-dimensional covariates — such as text data, genomics, or the behavioral social sciences — researchers have proposed methods to adjust for confounding by adapting machine learning methods to the goal of causal estimation. However, empirical evaluation of these adjustment methods has been challenging and limited. In this work, we build on a promising empirical evaluation strategy that simplifies evaluation design and uses real data: subsampling randomized controlled trials (RCTs) to create confounded observational datasets while using the average causal effects from the RCTs as ground-truth. We contribute a new sampling algorithm, which we call RCT rejection sampling, and provide theoretical guarantees that causal identification holds in the observational data to allow for valid comparisons to the ground-truth RCT. Using synthetic data, we show our algorithm indeed results in low bias when oracle estimators are evaluated on the confounded samples, which is not always the case for a previously proposed algorithm. In addition to this identification result, we highlight several finite data considerations for evaluation designers who plan to use RCT rejection sampling on their own datasets. As a proof of concept, we implement an example evaluation pipeline and walk through these finite data considerations with a novel, real-world RCT — which we release publicly — consisting of approximately 70k observations and text data as high-dimensional covariates. Together, these contributions build towards a broader agenda of improved empirical evaluation for causal estimation.

arxiv情報

著者 Katherine A. Keith,Sergey Feldman,David Jurgens,Jonathan Bragg,Rohit Bhattacharya
発行日 2023-11-27 14:35:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ME パーマリンク