Ensemble-based Offline-to-Online Reinforcement Learning: From Pessimistic Learning to Optimistic Exploration

要約

オフライン強化学習 (RL) は、エージェントが経験の固定データセットから学習する学習パラダイムです。
ただし、静的データセットのみから学習すると、探索が不足するためパフォーマンスが制限される可能性があります。
これを克服するために、オフラインからオンラインへの RL では、オフラインの事前トレーニングとオンラインの微調整を組み合わせます。これにより、エージェントはリアルタイムで環境と対話することでポリシーをさらに洗練できるようになります。
既存のオフラインからオンラインへの RL 手法は、その利点にもかかわらず、オンライン段階でのパフォーマンスの低下と改善の遅れに悩まされています。
これらの課題に取り組むために、私たちはアンサンブルベースの Offline-to-Online (E2O) RL と呼ばれる新しいフレームワークを提案します。
Q ネットワークの数を増やすことで、パフォーマンスを低下させることなく、オフラインの事前トレーニングとオンラインの微調整をシームレスに橋渡しします。
さらに、オンラインのパフォーマンス向上を促進するために、Q 値推定の悲観論を適切に緩和し、アンサンブルベースの探索メカニズムをフレームワークに組み込みます。
実験結果は、E2O が、さまざまな移動およびナビゲーションタスクのオンライン微調整中に、既存のオフライン RL メソッドのトレーニングの安定性、学習効率、最終パフォーマンスを大幅に向上させ、既存のオフラインからオンラインへの RL メソッドを大幅に上回ることができることを示しています。

要約(オリジナル)

Offline reinforcement learning (RL) is a learning paradigm where an agent learns from a fixed dataset of experience. However, learning solely from a static dataset can limit the performance due to the lack of exploration. To overcome it, offline-to-online RL combines offline pre-training with online fine-tuning, which enables the agent to further refine its policy by interacting with the environment in real-time. Despite its benefits, existing offline-to-online RL methods suffer from performance degradation and slow improvement during the online phase. To tackle these challenges, we propose a novel framework called Ensemble-based Offline-to-Online (E2O) RL. By increasing the number of Q-networks, we seamlessly bridge offline pre-training and online fine-tuning without degrading performance. Moreover, to expedite online performance enhancement, we appropriately loosen the pessimism of Q-value estimation and incorporate ensemble-based exploration mechanisms into our framework. Experimental results demonstrate that E2O can substantially improve the training stability, learning efficiency, and final performance of existing offline RL methods during online fine-tuning on a range of locomotion and navigation tasks, significantly outperforming existing offline-to-online RL methods.

arxiv情報

著者 Kai Zhao,Yi Ma,Jinyi Liu,Yan Zheng,Zhaopeng Meng
発行日 2023-06-12 05:10:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク