Offline Retraining for Online RL: Decoupled Policy Learning to Mitigate Exploration Bias

要約

特に、以前のオフライン データが十分な状態をカバーしていない場合、オンライン強化学習 (RL) または微調整中に新しい状態と動作を楽観的に探索することがポリシーにとって望ましいです。
ただし、探索ボーナスは学習されたポリシーに偏りを与える可能性があり、私たちの実験では、そのようなボーナスを単純かつ標準的に使用すると、パフォーマンスの高いポリシーを回復できない可能性があることがわかりました。
同時に、オフライン RL での悲観的トレーニングにより、静的データセットからパフォーマンスの高いポリシーを復元できるようになりました。
オフライン RL を活用して、オンライン インタラクションからより優れたポリシーを回復することはできますか?
私たちは、ポリシーを悲観的な目標を持つすべてのインタラクション データに対してゼロからトレーニングできるため、データ収集と評価に使用されるポリシーを分離できるという単純な観察を行います。
具体的には、強化学習 (RL) のオフラインからオンラインからオフライン (OOO) フレームワークにおけるオンライン微調整の最後に行われるポリシー抽出ステップであるオフライン再トレーニングを提案します。
楽観的 (探索) ポリシーは環境と対話するために使用され、別の悲観的 (搾取) ポリシーは評価のために観察されたすべてのデータに対してトレーニングされます。
このような分離により、評価ポリシーにおけるオンライン インタラクションからのバイアス (本質的報酬、優位性バイアス) を軽減でき、オンライン インタラクション中により探索的な行動が可能になり、結果として活用のためのより良いデータを生成できるようになります。
OOO は、いくつかのオフラインからオンラインへの RL およびオンライン RL 手法を補完し、微調整実験で平均パフォーマンスを 14% ~ 26% 向上させ、D4RL ベンチマークのいくつかの環境で最先端のパフォーマンスを達成します。
、2 つの OpenAI ジム環境でオンライン RL パフォーマンスが 165% 向上しました。
さらに、OOO を使用すると、従来の方法ではパフォーマンスの高いポリシーを回復できなかった不完全なオフライン データセットからの微調整が可能になります。
実装: https://github.com/MaxSobolMark/OOO

要約(オリジナル)

It is desirable for policies to optimistically explore new states and behaviors during online reinforcement learning (RL) or fine-tuning, especially when prior offline data does not provide enough state coverage. However, exploration bonuses can bias the learned policy, and our experiments find that naive, yet standard use of such bonuses can fail to recover a performant policy. Concurrently, pessimistic training in offline RL has enabled recovery of performant policies from static datasets. Can we leverage offline RL to recover better policies from online interaction? We make a simple observation that a policy can be trained from scratch on all interaction data with pessimistic objectives, thereby decoupling the policies used for data collection and for evaluation. Specifically, we propose offline retraining, a policy extraction step at the end of online fine-tuning in our Offline-to-Online-to-Offline (OOO) framework for reinforcement learning (RL). An optimistic (exploration) policy is used to interact with the environment, and a separate pessimistic (exploitation) policy is trained on all the observed data for evaluation. Such decoupling can reduce any bias from online interaction (intrinsic rewards, primacy bias) in the evaluation policy, and can allow more exploratory behaviors during online interaction which in turn can generate better data for exploitation. OOO is complementary to several offline-to-online RL and online RL methods, and improves their average performance by 14% to 26% in our fine-tuning experiments, achieves state-of-the-art performance on several environments in the D4RL benchmarks, and improves online RL performance by 165% on two OpenAI gym environments. Further, OOO can enable fine-tuning from incomplete offline datasets where prior methods can fail to recover a performant policy. Implementation: https://github.com/MaxSobolMark/OOO

arxiv情報

著者 Max Sobol Mark,Archit Sharma,Fahim Tajwar,Rafael Rafailov,Sergey Levine,Chelsea Finn
発行日 2023-10-12 17:50:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク