Offline Data Enhanced On-Policy Policy Gradient with Provable Guarantees

要約

ハイブリッド RL は、RL エージェントが現実世界の環境と対話することでオフライン データとオンライン データの両方にアクセスできる設定です。
この研究では、ポリシー上のアクター批判手法とオフライン データを組み合わせた新しいハイブリッド RL アルゴリズムを提案します。
ポリシー勾配や自然ポリシー勾配 (NPG) などのオンポリシー手法は、モデルの仕様ミスに対してより堅牢であることが示されていますが、オフポリシー学習に依存する手法ほどサンプル効率が高くない場合もあります。
一方、ポリシー外のトレーニングに依存するオフライン手法では、多くの場合、理論的に強力な仮定が必要となり、実際にトレーニングするには安定性が低くなります。
私たちの新しいアプローチは、オフライン データに関するオフポリシー トレーニングの手順をオンポリシー NPG フレームワークに統合します。
理論的には、私たちのアプローチは両方の長所を備えたタイプの結果を得ることができることを示します。これは、オフライン RL 固有の仮定が成立する場合、オフライン RL の最先端の理論的保証を達成すると同時に、
オフライン RL 仮定の有効性に関係なく、オンポリシー NPG の理論的保証を維持します。
実験的には、困難なリッチ観測環境において、私たちのアプローチがオフポリシーのポリシー最適化のみに依存する最先端のハイブリッド RL ベースラインを上回るパフォーマンスを示すことを示し、オンポリシー学習とオフポリシー学習を組み合わせる経験的利点を実証しました。

私たちのコードは https://github.com/YifeiZhou02/HNPG で公開されています。

要約(オリジナル)

Hybrid RL is the setting where an RL agent has access to both offline data and online data by interacting with the real-world environment. In this work, we propose a new hybrid RL algorithm that combines an on-policy actor-critic method with offline data. On-policy methods such as policy gradient and natural policy gradient (NPG) have shown to be more robust to model misspecification, though sometimes it may not be as sample efficient as methods that rely on off-policy learning. On the other hand, offline methods that depend on off-policy training often require strong assumptions in theory and are less stable to train in practice. Our new approach integrates a procedure of off-policy training on the offline data into an on-policy NPG framework. We show that our approach, in theory, can obtain a best-of-both-worlds type of result — it achieves the state-of-art theoretical guarantees of offline RL when offline RL-specific assumptions hold, while at the same time maintaining the theoretical guarantees of on-policy NPG regardless of the offline RL assumptions’ validity. Experimentally, in challenging rich-observation environments, we show that our approach outperforms a state-of-the-art hybrid RL baseline which only relies on off-policy policy optimization, demonstrating the empirical benefit of combining on-policy and off-policy learning. Our code is publicly available at https://github.com/YifeiZhou02/HNPG.

arxiv情報

著者 Yifei Zhou,Ayush Sekhari,Yuda Song,Wen Sun
発行日 2023-11-14 18:45:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク