Hybrid RL: Using Both Offline and Online Data Can Make RL Efficient

要約

ハイブリッド強化学習設定 (ハイブリッド RL) を検討します。この設定では、エージェントがオフライン データセットにアクセスし、現実世界のオンライン インタラクションを介して経験を収集することができます。
このフレームワークは、純粋なオフラインとオンラインの両方の RL 設定で発生する課題を軽減し、理論と実践の両方で、シンプルで非常に効果的なアルゴリズムの設計を可能にします。
従来の Q 学習/反復アルゴリズムをハイブリッド設定に適応させることで、これらの利点を実証します。これをハイブリッド Q 学習または Hy-Q と呼びます。
理論的な結果では、オフライン データセットが高品質のポリシーをサポートし、環境が双線形ランクを制限している場合は常に、アルゴリズムが計算上および統計上の両方で効率的であることを証明しています。
特に、ポリシー勾配/反復メソッドの保証とは対照的に、初期配布によって提供されるカバレッジについての仮定は必要ありません。
実験結果では、ニューラル ネットワーク関数近似を使用した Hy-Q が、Montezuma’s Revenge などの困難なベンチマークで最先端のオンライン、オフライン、およびハイブリッド RL ベースラインよりも優れていることを示しています。

要約(オリジナル)

We consider a hybrid reinforcement learning setting (Hybrid RL), in which an agent has access to an offline dataset and the ability to collect experience via real-world online interaction. The framework mitigates the challenges that arise in both pure offline and online RL settings, allowing for the design of simple and highly effective algorithms, in both theory and practice. We demonstrate these advantages by adapting the classical Q learning/iteration algorithm to the hybrid setting, which we call Hybrid Q-Learning or Hy-Q. In our theoretical results, we prove that the algorithm is both computationally and statistically efficient whenever the offline dataset supports a high-quality policy and the environment has bounded bilinear rank. Notably, we require no assumptions on the coverage provided by the initial distribution, in contrast with guarantees for policy gradient/iteration methods. In our experimental results, we show that Hy-Q with neural network function approximation outperforms state-of-the-art online, offline, and hybrid RL baselines on challenging benchmarks, including Montezuma’s Revenge.

arxiv情報

著者 Yuda Song,Yifei Zhou,Ayush Sekhari,J. Andrew Bagnell,Akshay Krishnamurthy,Wen Sun
発行日 2023-03-07 16:12:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク