A Convex Framework for Confounding Robust Inference

要約

私たちは、観測されていない交絡因子の影響を受けるオフラインのコンテキストバンディットの政策評価を研究します。
感度分析手法は、特定の不確実性セットに対する最悪の交絡のもとでの保険価値を推定するために一般的に使用されます。
しかし、既存の研究では、扱いやすさを目的として設定された不確実性をある程度大まかに緩和することに頼ることが多く、政策価値の過度に保守的な推定につながります。
この論文では、凸計画法を使用して政策値の鋭い下限を提供する一般的な推定量を提案します。
私たちの推定器の汎用性により、f ダイバージェンスによる感度分析、相互検証と情報量基準によるモデル選択、鋭い下限によるロバストなポリシー学習などのさまざまな拡張が可能になります。
さらに、私たちの推定方法は、強力な二重性のおかげで経験的リスク最小化問題として再定式化でき、M 推定の手法を使用して提案された推定量の強力な理論的保証を提供することができます。

要約(オリジナル)

We study policy evaluation of offline contextual bandits subject to unobserved confounders. Sensitivity analysis methods are commonly used to estimate the policy value under the worst-case confounding over a given uncertainty set. However, existing work often resorts to some coarse relaxation of the uncertainty set for the sake of tractability, leading to overly conservative estimation of the policy value. In this paper, we propose a general estimator that provides a sharp lower bound of the policy value using convex programming. The generality of our estimator enables various extensions such as sensitivity analysis with f-divergence, model selection with cross validation and information criterion, and robust policy learning with the sharp lower bound. Furthermore, our estimation method can be reformulated as an empirical risk minimization problem thanks to the strong duality, which enables us to provide strong theoretical guarantees of the proposed estimator using techniques of the M-estimation.

arxiv情報

著者 Kei Ishikawa,Niao He,Takafumi Kanamori
発行日 2023-11-01 17:25:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク