SCOPE-RL: A Python Library for Offline Reinforcement Learning and Off-Policy Evaluation

要約

本稿では、オフライン強化学習(offline RL)、政策評価(off-policy evaluation)、選択(OPS)のために設計された包括的なオープンソースPythonソフトウェアであるSCOPE-RLを紹介します。SCOPE-RLは、政策学習と評価のどちらか一方にのみ焦点を当てた既存のライブラリとは異なり、これら2つの重要な側面をシームレスに統合し、オフラインRLとOPEの両方のプロセスを柔軟かつ完全に実装することを容易にします。SCOPE-RLは特にOPEモジュールに重点を置いており、様々なOPE推定量とロバストなOPE評価プロトコルを提供しています。このアプローチにより、他のパッケージと比較して、より詳細で信頼性の高いOPEが可能になります。例えば、SCOPE-RLは単なるポイント単位の期待値ではなく、ポリシーの下での報酬分布全体を推定することで、OPEを強化しています。さらに、SCOPE-RLはリスクとリターンのトレードオフをOPE結果で提示することで、既存のOPE文献における単なる精度評価を超えた、より徹底したOPEの評価を提供します。SCOPE-RLはユーザーのアクセシビリティを念頭に設計されています。ユーザーフレンドリーなAPI、包括的なドキュメント、そして分かりやすい様々な例題は、研究者や実務家が、それぞれの問題コンテクストに合わせた様々なオフラインRL手法やOPE推定量を効率的に実装し、実験することを支援します。SCOPE-RL のドキュメントは https://scope-rl.readthedocs.io/en/latest/ にあります。

要約(オリジナル)

This paper introduces SCOPE-RL, a comprehensive open-source Python software designed for offline reinforcement learning (offline RL), off-policy evaluation (OPE), and selection (OPS). Unlike most existing libraries that focus solely on either policy learning or evaluation, SCOPE-RL seamlessly integrates these two key aspects, facilitating flexible and complete implementations of both offline RL and OPE processes. SCOPE-RL put particular emphasis on its OPE modules, offering a range of OPE estimators and robust evaluation-of-OPE protocols. This approach enables more in-depth and reliable OPE compared to other packages. For instance, SCOPE-RL enhances OPE by estimating the entire reward distribution under a policy rather than its mere point-wise expected value. Additionally, SCOPE-RL provides a more thorough evaluation-of-OPE by presenting the risk-return tradeoff in OPE results, extending beyond mere accuracy evaluations in existing OPE literature. SCOPE-RL is designed with user accessibility in mind. Its user-friendly APIs, comprehensive documentation, and a variety of easy-to-follow examples assist researchers and practitioners in efficiently implementing and experimenting with various offline RL methods and OPE estimators, tailored to their specific problem contexts. The documentation of SCOPE-RL is available at https://scope-rl.readthedocs.io/en/latest/.

arxiv情報

著者 Haruka Kiyohara,Ren Kishimoto,Kosuke Kawakami,Ken Kobayashi,Kazuhide Nakata,Yuta Saito
発行日 2023-12-04 18:42:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク