要約
オフライン強化学習 (RL) は、エージェントが経験の固定データセットから学習する学習パラダイムです。
ただし、静的データセットのみから学習すると、探索が不足するためパフォーマンスが制限される可能性があります。
これを克服するために、オフラインからオンラインへの RL では、オフラインの事前トレーニングとオンラインの微調整を組み合わせます。これにより、エージェントはリアルタイムで環境と対話することでポリシーをさらに洗練できるようになります。
既存のオフラインからオンラインへの RL 手法は、その利点にもかかわらず、オンライン段階でのパフォーマンスの低下と改善の遅れに悩まされています。
これらの課題に取り組むために、私たちは ENsemble-based Offline-To-Online (ENOTO) RL と呼ばれる新しいフレームワークを提案します。
Q ネットワークの数を増やすことで、パフォーマンスを低下させることなく、オフラインの事前トレーニングとオンラインの微調整をシームレスに橋渡しします。
さらに、オンラインのパフォーマンス向上を促進するために、Q 値推定の悲観論を適切に緩和し、アンサンブルベースの探索メカニズムをフレームワークに組み込みます。
実験結果は、ENOTO がさまざまな移動およびナビゲーションタスクのオンライン微調整中に、既存のオフライン RL メソッドのトレーニングの安定性、学習効率、最終パフォーマンスを大幅に向上させ、既存のオフラインからオンラインへの RL メソッドを大幅に上回ることができることを示しています。
要約(オリジナル)
Offline reinforcement learning (RL) is a learning paradigm where an agent learns from a fixed dataset of experience. However, learning solely from a static dataset can limit the performance due to the lack of exploration. To overcome it, offline-to-online RL combines offline pre-training with online fine-tuning, which enables the agent to further refine its policy by interacting with the environment in real-time. Despite its benefits, existing offline-to-online RL methods suffer from performance degradation and slow improvement during the online phase. To tackle these challenges, we propose a novel framework called ENsemble-based Offline-To-Online (ENOTO) RL. By increasing the number of Q-networks, we seamlessly bridge offline pre-training and online fine-tuning without degrading performance. Moreover, to expedite online performance enhancement, we appropriately loosen the pessimism of Q-value estimation and incorporate ensemble-based exploration mechanisms into our framework. Experimental results demonstrate that ENOTO can substantially improve the training stability, learning efficiency, and final performance of existing offline RL methods during online fine-tuning on a range of locomotion and navigation tasks, significantly outperforming existing offline-to-online RL methods.
arxiv情報
著者 | Kai Zhao,Jianye Hao,Yi Ma,Jinyi Liu,Yan Zheng,Zhaopeng Meng |
発行日 | 2024-07-21 14:49:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google