要約
観察データから条件付き平均治療効果 (CATE) を推定することは、電子商取引、医療、経済などの分野で重要な役割を果たします。
既存の研究は主に、観察データから存在をテストできず、因果関係の結論を無効にする可能性がある未測定の交絡因子は存在しないという強力な無視可能性の仮定に依存しています。
対照的に、ランダム化比較試験 (RCT) から収集されたデータは交絡の影響を受けませんが、通常はサンプルサイズが小さいため制限されます。
この論文では、大規模な観測データと小規模な RCT データの両方を使用して、未測定の交絡が存在する場合の CATE を推定する 2 段階の事前トレーニング微調整 (TSPF) フレームワークを提案します。
第 1 段階では、大規模な観察データを通じて反事実の結果を推定するために、共変量の基礎的な表現がトレーニングされます。
第 2 段階では、共変量の拡張表現をトレーニングすることを提案します。これは、測定されていない交絡を調整するために、第 1 段階で得られた基本表現に連結されます。
第 2 段階で小規模 RCT データによって引き起こされる過剰適合を回避するために、別のネットワークをトレーニングするのではなく、部分的なパラメーター初期化アプローチをさらに提案します。
私たちのアプローチの優位性は、広範な実験により 2 つの公開データセットで検証されています。
コードは https://github.com/zhouchuanCN/KDD25-TSPF で入手できます。
要約(オリジナル)
Estimating the conditional average treatment effect (CATE) from observational data plays a crucial role in areas such as e-commerce, healthcare, and economics. Existing studies mainly rely on the strong ignorability assumption that there are no unmeasured confounders, whose presence cannot be tested from observational data and can invalidate any causal conclusion. In contrast, data collected from randomized controlled trials (RCT) do not suffer from confounding, but are usually limited by a small sample size. In this paper, we propose a two-stage pretraining-finetuning (TSPF) framework using both large-scale observational data and small-scale RCT data to estimate the CATE in the presence of unmeasured confounding. In the first stage, a foundational representation of covariates is trained to estimate counterfactual outcomes through large-scale observational data. In the second stage, we propose to train an augmented representation of the covariates, which is concatenated to the foundational representation obtained in the first stage to adjust for the unmeasured confounding. To avoid overfitting caused by the small-scale RCT data in the second stage, we further propose a partial parameter initialization approach, rather than training a separate network. The superiority of our approach is validated on two public datasets with extensive experiments. The code is available at https://github.com/zhouchuanCN/KDD25-TSPF.
arxiv情報
著者 | Chuan Zhou,Yaxuan Li,Chunyuan Zheng,Haiteng Zhang,Min Zhang,Haoxuan Li,Mingming Gong |
発行日 | 2025-01-15 15:58:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google