要約
条件付き平均治療効果 (CATE) 推定アルゴリズムを評価した大規模なベンチマーク研究からの予期せぬ発見を紹介します。
43,200 のデータセットにわたって 16 の最新の CATE モデルを実行したところ、次のことがわかりました。(a) CATE 推定値の 62\% は、単純なゼロ効果予測子よりも平均二乗誤差 (MSE) が高く、効果がありません。
(b) 少なくとも 1 つの有用な CATE 推定値を含むデータセットでは、80% が定数効果モデルよりも高い MSE を示しています。
(c) 直交性ベースのモデルは、そのパフォーマンスについて楽観的な見方が広まっているにもかかわらず、他のモデルを上回るパフォーマンスを示す確率はわずか 30% です。
これらの発見は、現在の CATE モデルの重大な限界を明らかにし、さらなる研究の十分な機会を示唆しています。
私たちの発見は、\textit{観察サンプリング} の新しいアプリケーションから生まれました。このアプリケーションは、もともと実験データを使用した観察方法からの平均治療効果 (ATE) 推定値を評価するために開発されました。
CATE 評価に観測サンプリングを適応させるために、MSE から定数を引いたものに等しい統計パラメーター $Q$ を導入し、MSE によるモデルのランキングを保存します。
次に、実世界のデータから計算できる、総称して $\hat{Q}$ と呼ばれる標本統計量のファミリーを導出します。
$\hat{Q}$ が穏やかな技術条件下で $Q$ の一貫した推定量であることを証明します。
観測サンプリングで使用される場合、$\hat{Q}$ は不偏であり、最小の MSE を持つモデルを漸近的に選択します。
ベンチマークが現実世界の不均質性を反映していることを確認するために、シミュレーションではなくフィールドから結果が得られるデータセットを厳選しています。
新しい観測サンプリング手法、新しい統計、現実世界のデータセットを組み合わせることで、このベンチマークは CATE 推定器のパフォーマンスに関する独自の視点を提供し、現実世界の不均一性を捉える際のギャップを明らかにします。
要約(オリジナル)
We present unexpected findings from a large-scale benchmark study evaluating Conditional Average Treatment Effect (CATE) estimation algorithms. By running 16 modern CATE models across 43,200 datasets, we find that: (a) 62\% of CATE estimates have a higher Mean Squared Error (MSE) than a trivial zero-effect predictor, rendering them ineffective; (b) in datasets with at least one useful CATE estimate, 80\% still have higher MSE than a constant-effect model; and (c) Orthogonality-based models outperform other models only 30\% of the time, despite widespread optimism about their performance. These findings expose significant limitations in current CATE models and suggest ample opportunities for further research. Our findings stem from a novel application of \textit{observational sampling}, originally developed to evaluate Average Treatment Effect (ATE) estimates from observational methods with experiment data. To adapt observational sampling for CATE evaluation, we introduce a statistical parameter, $Q$, equal to MSE minus a constant and preserves the ranking of models by their MSE. We then derive a family of sample statistics, collectively called $\hat{Q}$, that can be computed from real-world data. We prove that $\hat{Q}$ is a consistent estimator of $Q$ under mild technical conditions. When used in observational sampling, $\hat{Q}$ is unbiased and asymptotically selects the model with the smallest MSE. To ensure the benchmark reflects real-world heterogeneity, we handpick datasets where outcomes come from field rather than simulation. By combining the new observational sampling method, new statistics, and real-world datasets, the benchmark provides a unique perspective on CATE estimator performance and uncover gaps in capturing real-world heterogeneity.
arxiv情報
著者 | Haining Yu,Yizhou Sun |
発行日 | 2024-10-09 16:04:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google