要約
オフライン強化学習 (RL) を使用すると、環境を操作することなく、オフライン データセットから有能なエージェントをトレーニングできます。
このようなオフライン モデルをオンラインで微調整すると、パフォーマンスをさらに向上させることができます。
しかし、オフラインの RL トレーニングから得られたエージェントを理想的に微調整するにはどうすればよいでしょうか?
オフラインの RL アルゴリズムは、原則として微調整に使用できますが、実際には、オンラインのパフォーマンスはゆっくりと向上します。
対照的に、より迅速な改善のために標準的なオンライン オフ ポリシー アルゴリズムを使用できることを示します。
ただし、このアプローチは、最初のオンライン学習中にポリシーのパフォーマンスが大幅に低下するポリシーの崩壊に悩まされる可能性があることがわかりました。
ポリシーの崩壊の問題と、それがデータの多様性、アルゴリズムの選択、オンライン リプレイ配信とどのように関係しているかを調査します。
これらの洞察に基づいて、オフラインの事前トレーニングから安定したサンプル効率の高いオンライン学習を実現できる保守的なポリシー最適化手順を提案します。
要約(オリジナル)
Offline reinforcement learning (RL) allows for the training of competent agents from offline datasets without any interaction with the environment. Online finetuning of such offline models can further improve performance. But how should we ideally finetune agents obtained from offline RL training? While offline RL algorithms can in principle be used for finetuning, in practice, their online performance improves slowly. In contrast, we show that it is possible to use standard online off-policy algorithms for faster improvement. However, we find this approach may suffer from policy collapse, where the policy undergoes severe performance deterioration during initial online learning. We investigate the issue of policy collapse and how it relates to data diversity, algorithm choices and online replay distribution. Based on these insights, we propose a conservative policy optimization procedure that can achieve stable and sample-efficient online learning from offline pretraining.
arxiv情報
著者 | Yicheng Luo,Jackie Kay,Edward Grefenstette,Marc Peter Deisenroth |
発行日 | 2023-03-30 14:08:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google