Demystifying the Paradox of Importance Sampling with an Estimated History-Dependent Behavior Policy in Off-Policy Evaluation

要約

このホワイトペーパーでは、重要性サンプリングの行動ポリシーの推定に焦点を当てた強化学習におけるオフポリシー評価(OPE)を研究します。
以前の研究では、履歴依存の行動ポリシーを推定すると、真の行動ポリシーがマルコビアンであっても、平均平方エラー(MSE)が低くなる可能性があることが経験的に示されています。
ただし、なぜ歴史の使用がMSEを下げるのかという問題は、開いたままです。
この論文では、通常の重要性サンプリング(IS)推定量のMSEのバイアス分散分解を導出することにより、このパラドックスを理論的に分析し、履歴依存の行動政策推定が漸近的変異を減少させながら有限サンプルバイアスを増加させることを示しています。
さらに、より長い履歴に関する推定行動政策条件として、分散の一貫した減少を示します。
これらの発見は、シーケンシャルIS推定器、二重堅牢性推定器、および疎外されたIS推定器を含む他のさまざまなOPE推定器に拡張し、行動ポリシーはパラメトリックまたはノンパラメトリックで推定されます。

要約(オリジナル)

This paper studies off-policy evaluation (OPE) in reinforcement learning with a focus on behavior policy estimation for importance sampling. Prior work has shown empirically that estimating a history-dependent behavior policy can lead to lower mean squared error (MSE) even when the true behavior policy is Markovian. However, the question of why the use of history should lower MSE remains open. In this paper, we theoretically demystify this paradox by deriving a bias-variance decomposition of the MSE of ordinary importance sampling (IS) estimators, demonstrating that history-dependent behavior policy estimation decreases their asymptotic variances while increasing their finite-sample biases. Additionally, as the estimated behavior policy conditions on a longer history, we show a consistent decrease in variance. We extend these findings to a range of other OPE estimators, including the sequential IS estimator, the doubly robust estimator and the marginalized IS estimator, with the behavior policy estimated either parametrically or non-parametrically.

arxiv情報

著者 Hongyi Zhou,Josiah P. Hanna,Jin Zhu,Ying Yang,Chengchun Shi
発行日 2025-05-28 15:42:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク