要約
私たちは、大規模なアクションスペースを備えた状況に応じたバンディット設定でオフポリシー評価(OPE)を研究します。
ベンチマーク推定値は、深刻なバイアスと分散のトレードオフに悩まされます。
パラメトリックアプローチは正しいモデルを指定することが難しいためバイアスの影響を受けますが、重要度の重みを使用するアプローチでは分散の影響を受けます。
これらの制限を克服するために、アクションの埋め込みによって推定量の分散を軽減する周辺化逆傾向スコアリング (MIPS) が提案されました。
推定量をより正確にするために、境界化二重ロバスト (MDR) 推定量と呼ばれる MIPS の二重ロバスト推定量を提案します。
理論分析の結果、提案された推定量は MIPS よりも弱い仮定の下で不偏でありながら、MIPS の主な利点である IPS に対する分散の低減を維持していることが示されています。
実証実験により、既存の推定量に対する MDR の優位性が検証されます。
要約(オリジナル)
We study Off-Policy Evaluation (OPE) in contextual bandit settings with large action spaces. The benchmark estimators suffer from severe bias and variance tradeoffs. Parametric approaches suffer from bias due to difficulty specifying the correct model, whereas ones with importance weight suffer from variance. To overcome these limitations, Marginalized Inverse Propensity Scoring (MIPS) was proposed to mitigate the estimator’s variance via embeddings of an action. To make the estimator more accurate, we propose the doubly robust estimator of MIPS called the Marginalized Doubly Robust (MDR) estimator. Theoretical analysis shows that the proposed estimator is unbiased under weaker assumptions than MIPS while maintaining variance reduction against IPS, which was the main advantage of MIPS. The empirical experiment verifies the supremacy of MDR against existing estimators.
arxiv情報
著者 | Tatsuhiro Shimizu,Laura Forastiere |
発行日 | 2023-08-09 10:34:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google