要約
私たちは、観測されていない交絡因子の影響を受けるオフラインのコンテキストバンディットの政策評価を研究します。
感度分析手法は、特定の不確実性セットに対する最悪の交絡のもとでの保険価値を推定するために一般的に使用されます。
しかし、既存の研究では、扱いやすさを目的として設定された不確実性をある程度大まかに緩和することに頼ることが多く、政策価値の過度に保守的な推定につながります。
この論文では、政策価値の明確な下限を提供する一般的な推定量を提案します。
私たちの推定量には、特別なケースとして Dorn and Guo (2022) によって最近提案されたシャープ推定量が含まれていることが示され、私たちの方法は f ダイバージェンスを使用した古典的な限界感度モデルの新しい拡張を可能にします。
推定器を構築するために、カーネル法を利用して条件付きモーメント制約に対する扱いやすい近似値を取得しますが、従来の非シャープ推定器では考慮できませんでした。
理論的分析では、下限推定値に偏りをもたらす仕様エラーがないことを保証するカーネルの選択条件を提供します。
さらに、ポリシーの評価と学習の一貫性を保証します。
合成データと現実世界のデータを使用した実験で、提案された方法の有効性を実証します。
要約(オリジナル)
We study policy evaluation of offline contextual bandits subject to unobserved confounders. Sensitivity analysis methods are commonly used to estimate the policy value under the worst-case confounding over a given uncertainty set. However, existing work often resorts to some coarse relaxation of the uncertainty set for the sake of tractability, leading to overly conservative estimation of the policy value. In this paper, we propose a general estimator that provides a sharp lower bound of the policy value. It can be shown that our estimator contains the recently proposed sharp estimator by Dorn and Guo (2022) as a special case, and our method enables a novel extension of the classical marginal sensitivity model using f-divergence. To construct our estimator, we leverage the kernel method to obtain a tractable approximation to the conditional moment constraints, which traditional non-sharp estimators failed to take into account. In the theoretical analysis, we provide a condition for the choice of the kernel which guarantees no specification error that biases the lower bound estimation. Furthermore, we provide consistency guarantees of policy evaluation and learning. In the experiments with synthetic and real-world data, we demonstrate the effectiveness of the proposed method.
arxiv情報
著者 | Kei Ishikawa,Niao He |
発行日 | 2023-09-14 17:31:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google