Planning to Go Out-of-Distribution in Offline-to-Online Reinforcement Learning

要約

静的データセットを使用したオフライン事前トレーニングとその後のオンライン微調整 (オフラインからオンライン、または OtO) は、現実世界の RL 導入プロセスによく適合するパラダイムです。
このシナリオでは、オンライン インタラクションの限られた予算内で最もパフォーマンスの高いポリシーを見つけることを目指します。
OtO 設定におけるこれまでの研究は、オフライン RL アルゴリズムのポリシー制約メカニズムによって導入されたバイアスの修正に焦点を当ててきました。
このような制約により、学習されたポリシーはデータセットを収集した動作ポリシーに近く保たれますが、動作ポリシーが最適から程遠い場合、これによってポリシーのパフォーマンスが不必要に制限される可能性があることが示されています。
代わりに、制約を無視し、OtO RL をオンライン データ収集の利点を最大化することを目的とした探索問題として組み立てます。
まず、OtO 設定における固有報酬と UCB に基づく主要なオンライン RL 探索手法を研究します。これにより、固有報酬は報酬関数の修正を通じてトレーニングの不安定性を追加し、UCB 手法は近視眼的であり、どの学習済みコンポーネントのアンサンブルを学習に使用するかが不明であることを示します。
アクションの選択。
次に、これらの問題を回避する配布外計画アルゴリズム (PTGOOD) を導入します。
PTGOOD は、行動ポリシーが訪問する可能性が低い状態活動空間の比較的高い報酬領域の探索をターゲットとする、近視眼的ではない計画手順を使用します。
PTGOOD は、条件付きエントロピー ボトルネックの概念を活用することで、オンラインで収集されたデータを奨励し、報酬を変えることなく最終的な展開ポリシーの改善に関連する新しい情報を提供します。
いくつかの継続的な制御タスクで、PTGOOD がオンライン微調整中のエージェントの収益を大幅に向上させ、ベースラインの多くがいくつかの環境で示す次善のポリシー収束を回避することを経験的に示しています。

要約(オリジナル)

Offline pretraining with a static dataset followed by online fine-tuning (offline-to-online, or OtO) is a paradigm well matched to a real-world RL deployment process. In this scenario, we aim to find the best-performing policy within a limited budget of online interactions. Previous work in the OtO setting has focused on correcting for bias introduced by the policy-constraint mechanisms of offline RL algorithms. Such constraints keep the learned policy close to the behavior policy that collected the dataset, but we show this can unnecessarily limit policy performance if the behavior policy is far from optimal. Instead, we forgo constraints and frame OtO RL as an exploration problem that aims to maximize the benefit of online data-collection. We first study the major online RL exploration methods based on intrinsic rewards and UCB in the OtO setting, showing that intrinsic rewards add training instability through reward-function modification, and UCB methods are myopic and it is unclear which learned-component’s ensemble to use for action selection. We then introduce an algorithm for planning to go out-of-distribution (PTGOOD) that avoids these issues. PTGOOD uses a non-myopic planning procedure that targets exploration in relatively high-reward regions of the state-action space unlikely to be visited by the behavior policy. By leveraging concepts from the Conditional Entropy Bottleneck, PTGOOD encourages data collected online to provide new information relevant to improving the final deployment policy without altering rewards. We show empirically in several continuous control tasks that PTGOOD significantly improves agent returns during online fine-tuning and avoids the suboptimal policy convergence that many of our baselines exhibit in several environments.

arxiv情報

著者 Trevor McInroe,Adam Jelley,Stefano V. Albrecht,Amos Storkey
発行日 2024-06-21 13:13:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク