Estimating Heterogeneous Treatment Effects by Combining Weak Instruments and Observational Data

要約

条件付き平均治療効果 (CATE) を正確に予測することは、個別化医療とデジタル プラットフォーム分析において非常に重要です。
多くの場合、対象となる治療法を直接ランダム化することはできないため、観察データを活用して CATE を学習しますが、このアプローチでは、観察されていない交絡によって重大なバイアスが生じる可能性があります。
これらの制限を克服するための 1 つの戦略は、治療の操作変数 (IV) における潜在的な疑似実験、たとえば、ランダム化された治療意図やランダム化された製品の推奨を求めることです。
一方、このアプローチはコンプライアンスが低い、つまり IV が弱いという問題が生じる可能性があります。
一部のサブグループは、コンプライアンスがゼロであることさえあります。これは、CATE をまったく計測できないことを意味します。
この論文では、IV データと観測データを組み合わせて、観測データに観測されていない交絡が存在し、IV データのコンプライアンスが低い (一部のサブグループではコンプライアンスがないなど) 場合でも、信頼性の高い CATE 推定を可能にする新しいアプローチを開発します。
我々は、最初に観察データから偏った CATE を学習し、次に IV データを使用してコンプライアンス加重補正を適用し、共変量間の IV 強度の変動を効果的に活用する 2 段階のフレームワークを提案します。
私たちはこの方法の収束率を特徴づけ、シミュレーション研究を通じてその有効性を検証します。
さらに、401(k) プランへの参加が富に与える不均一な影響を分析することにより、実際のデータを使用してその有用性を実証します。

要約(オリジナル)

Accurately predicting conditional average treatment effects (CATEs) is crucial in personalized medicine and digital platform analytics. Since often the treatments of interest cannot be directly randomized, observational data is leveraged to learn CATEs, but this approach can incur significant bias from unobserved confounding. One strategy to overcome these limitations is to seek latent quasi-experiments in instrumental variables (IVs) for the treatment, for example, a randomized intent to treat or a randomized product recommendation. This approach, on the other hand, can suffer from low compliance, i.e., IV weakness. Some subgroups may even exhibit zero compliance meaning we cannot instrument for their CATEs at all. In this paper we develop a novel approach to combine IV and observational data to enable reliable CATE estimation in the presence of unobserved confounding in the observational data and low compliance in the IV data, including no compliance for some subgroups. We propose a two-stage framework that first learns biased CATEs from the observational data, and then applies a compliance-weighted correction using IV data, effectively leveraging IV strength variability across covariates. We characterize the convergence rates of our method and validate its effectiveness through a simulation study. Additionally, we demonstrate its utility with real data by analyzing the heterogeneous effects of 401(k) plan participation on wealth.

arxiv情報

著者 Miruna Oprescu,Nathan Kallus
発行日 2024-06-10 16:40:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML パーマリンク