Low Variance Off-policy Evaluation with State-based Importance Sampling

要約

【タイトル】
状態ベースの重要度サンプリングによる低分散のオフポリシー評価

【要旨】
– オフポリシー強化学習において、振る舞いポリシーは環境との探索的な相互作用を行い、それによって収集された状態-アクション-報酬のサンプルを使用して、期待値を最適化するターゲットポリシーを学習する。
– しかし、異なる振る舞いポリシーによって収集されたサンプルを使用して、ターゲットポリシーを評価する必要が生じるため、オフポリシー評価の問題が発生する。
– この論文では、従来からオフポリシー評価に適用されている重要度サンプリングという伝統的な統計的技法を提案する。
– 重要度サンプリング推定器はバイアスがないが、意思決定プロセスのホライズンが増加すると分散が指数的に増加するという問題があり、長期的な計画を必要とする環境において精度が低くなることがある。
– この論文では、状態ベースの重要度サンプリング(SIS)を提案し、選択されたアクションがリターンの推定値に影響を与えないと判断された「取るに足らない状態」というサブトラジェクトリのアクション確率比を落とし、重要度重みの計算から除外することで分散を減らす方法を提供する。
– 理論的な結果は、分散上限の小さな指数および低い平均二乗誤差を示している。
– 取るに足らない状態を識別するために、共分散テストに基づく1つの検索アルゴリズムと状態アクション値に基づくもう1つの検索アルゴリズムを提案する。
– SISの公式を使用して、状態ベースの重み付き重要度サンプリング、決定ごとの重要度サンプリング、および状態アクション値認識アルゴリズムに基づくインクリメンタル重要度サンプリングの状態ベースの変種を類推的に定式化する。
– また、ダブルロバスト推定器もSISの恩恵を受けることができることに注目する。
– 2つのグリッドワールド環境と1つの在庫管理環境での実験は、状態ベースの手法が分散を減らし、精度が向上することを示している。

要約(オリジナル)

In off-policy reinforcement learning, a behaviour policy performs exploratory interactions with the environment to obtain state-action-reward samples which are then used to learn a target policy that optimises the expected return. This leads to a problem of off-policy evaluation, where one needs to evaluate the target policy from samples collected by the often unrelated behaviour policy. Importance sampling is a traditional statistical technique that is often applied to off-policy evaluation. While importance sampling estimators are unbiased, their variance increases exponentially with the horizon of the decision process due to computing the importance weight as a product of action probability ratios, yielding estimates with low accuracy for domains involving long-term planning. This paper proposes state-based importance sampling (SIS), which drops the action probability ratios of sub-trajectories with ‘negligible states’ — roughly speaking, those for which the chosen actions have no impact on the return estimate — from the computation of the importance weight. Theoretical results demonstrate a smaller exponent for the variance upper bound as well as a lower mean squared error. To identify negligible states, two search algorithms are proposed, one based on covariance testing and one based on state-action values. Using the formulation of SIS, we then analogously formulate state-based variants of weighted importance sampling, per-decision importance sampling, and incremental importance sampling based on the state-action value identification algorithm. Moreover, we note that doubly robust estimators may also benefit from SIS. Experiments in two gridworld domains and one inventory management domain show that state-based methods yield reduced variance and improved accuracy.

arxiv情報

著者 David M. Bossens,Philip S. Thomas
発行日 2023-04-13 23:56:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク