要約
治療効果の推定には、個々の結果に対するさまざまな治療の影響を評価することが含まれます。
現在の方法では、陽性や非強制性などの仮定の下で、治療の割り当てと結果がその後観察される前に共変量が収集される観測データセットを使用して、条件平均治療効果(CATE)を推定します。
この論文では、治療後に共変量と結果の両方が収集されるシナリオに対処します。
治療後の共変量がCATEを識別不能にすることを示し、CATEを回復するには、治療に依存しない因果表現を学習する必要があることを示します。
以前の研究は、反事実的な監督が観察データで利用可能である場合、対照的な学習を通じてそのような表現を学ぶことができることを示しています。
ただし、反事実はまれであるため、他の作品は合成反事実的監督を提供するシミュレーターを使用して調査しています。
この論文の目標は、CATEの推定におけるシミュレーターの役割を体系的に分析することです。
いくつかのベースラインのCATEエラーを分析し、それらの制限を強調します。
次に、実際のシミュレーターのミスマッチの関数として、実際の分布とシミュレートされた分布に関する共同トレーニングからのCATEエラーを特徴付ける一般化バウンドを確立します。
最後に、simponetを紹介します。これは、一般化バウンドから損失関数がインスピレーションを受けた新しい方法です。
さらに、シミュレータがCATEタスクとの関連性に基づいて、Simponetが学習目標に対するシミュレーターの影響をどのように調整するかを示します。
最先端のCATEベースラインに対するシンポネットの有効性を評価するために、実際のシミュレータ分布ギャップを体系的に変化させることにより、さまざまなDGPを実験します。
要約(オリジナル)
Treatment effect estimation involves assessing the impact of different treatments on individual outcomes. Current methods estimate Conditional Average Treatment Effect (CATE) using observational datasets where covariates are collected before treatment assignment and outcomes are observed afterward, under assumptions like positivity and unconfoundedness. In this paper, we address a scenario where both covariates and outcomes are gathered after treatment. We show that post-treatment covariates render CATE unidentifiable, and recovering CATE requires learning treatment-independent causal representations. Prior work shows that such representations can be learned through contrastive learning if counterfactual supervision is available in observational data. However, since counterfactuals are rare, other works have explored using simulators that offer synthetic counterfactual supervision. Our goal in this paper is to systematically analyze the role of simulators in estimating CATE. We analyze the CATE error of several baselines and highlight their limitations. We then establish a generalization bound that characterizes the CATE error from jointly training on real and simulated distributions, as a function of the real-simulator mismatch. Finally, we introduce SimPONet, a novel method whose loss function is inspired from our generalization bound. We further show how SimPONet adjusts the simulator’s influence on the learning objective based on the simulator’s relevance to the CATE task. We experiment with various DGPs, by systematically varying the real-simulator distribution gap to evaluate SimPONet’s efficacy against state-of-the-art CATE baselines.
arxiv情報
著者 | Lokesh Nagalapatti,Pranava Singhal,Avishek Ghosh,Sunita Sarawagi |
発行日 | 2025-02-07 16:04:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google