Improving Monte Carlo Evaluation with Offline Data

要約

強化学習の実践者の多くは、ハイパーパラメータのチューニングやアルゴリズム設計の異なる選択肢をテストするために、オンライン・モンテカルロ推定器を用いてポリシーを評価する。このような環境との大規模な相互作用は、多くのシナリオにおいて禁止されている。本論文では、オンラインモンテカルロ推定器の不偏性を維持しつつ、データ効率を改善する新しい手法を提案する。我々はまず、オンラインモンテカルロ推定量の分散を証明的に減少させる閉形式の行動ポリシーを提案する。次に、過去に収集したオフラインデータからこの閉形式の振る舞い方針を学習する効率的なアルゴリズムを設計する。理論解析により、行動ポリシーの学習誤差が分散の減少量にどのように影響するかを特徴付ける。先行研究と比較して、我々の手法は、オフラインデータに対する要求が少なく、より広範な環境セットにおいて、より優れた経験的性能を達成する。

要約(オリジナル)

Most reinforcement learning practitioners evaluate their policies with online Monte Carlo estimators for either hyperparameter tuning or testing different algorithmic design choices, where the policy is repeatedly executed in the environment to get the average outcome. Such massive interactions with the environment are prohibitive in many scenarios. In this paper, we propose novel methods that improve the data efficiency of online Monte Carlo estimators while maintaining their unbiasedness. We first propose a tailored closed-form behavior policy that provably reduces the variance of an online Monte Carlo estimator. We then design efficient algorithms to learn this closed-form behavior policy from previously collected offline data. Theoretical analysis is provided to characterize how the behavior policy learning error affects the amount of reduced variance. Compared with previous works, our method achieves better empirical performance in a broader set of environments, with fewer requirements for offline data.

arxiv情報

著者 Shuze Liu,Shangtong Zhang
発行日 2024-02-02 16:42:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク