Efficient and Sharp Off-Policy Learning under Unobserved Confounding

要約

観察されていない交絡を伴うシナリオで、パーソナライズされたオフポリシー学習のための新しい方法を開発します。
それにより、標準的なポリシー学習の重要な制限に対処します。標準的なポリシー学習は、非強制性を想定しています。つまり、観察されていない要因が治療の割り当てと結果の両方に影響しないことを意味します。
ただし、この仮定はしばしば侵害されています。そのため、標準的なポリシー学習は偏った推定値を生み出し、したがって有害なポリシーにつながります。
この制限に対処するために、因果感度分析を採用し、観察されていない交絡の下での値関数の鋭いバウンドの統計的に効率的な推定器を導き出します。
推定量には3つの利点があります。(1)既存の作業とは異なり、推定器は逆傾向の加重結果に基づいて不安定なミニマックス最適化を回避します。
(2)推定器は統計的に効率的です。
(3)推定器が最適な交絡 – 強いポリシーにつながることを証明します。
最後に、私たちの理論は、観察されていない交絡の下で、つまり標準的なケアなどのベースラインポリシーが利用可能な場合、政策改善の関連するタスクに拡張します。
合成および実世界のデータを使用した実験で、この方法は単純なプラグインアプローチと既存のベースラインよりも優れていることを示しています。
私たちの方法は、ヘルスケアや公共政策など、観察されていない交絡が問題になる可能性がある意思決定に非常に関連しています。

要約(オリジナル)

We develop a novel method for personalized off-policy learning in scenarios with unobserved confounding. Thereby, we address a key limitation of standard policy learning: standard policy learning assumes unconfoundedness, meaning that no unobserved factors influence both treatment assignment and outcomes. However, this assumption is often violated, because of which standard policy learning produces biased estimates and thus leads to policies that can be harmful. To address this limitation, we employ causal sensitivity analysis and derive a statistically efficient estimator for a sharp bound on the value function under unobserved confounding. Our estimator has three advantages: (1) Unlike existing works, our estimator avoids unstable minimax optimization based on inverse propensity weighted outcomes. (2) Our estimator is statistically efficient. (3) We prove that our estimator leads to the optimal confounding-robust policy. Finally, we extend our theory to the related task of policy improvement under unobserved confounding, i.e., when a baseline policy such as the standard of care is available. We show in experiments with synthetic and real-world data that our method outperforms simple plug-in approaches and existing baselines. Our method is highly relevant for decision-making where unobserved confounding can be problematic, such as in healthcare and public policy.

arxiv情報

著者 Konstantin Hess,Dennis Frauen,Valentyn Melnychuk,Stefan Feuerriegel
発行日 2025-02-18 16:42:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク