要約
オフラインデータを活用することは、オンライン強化学習(RL)のサンプル効率を改善する有望な方法です。
このホワイトペーパーでは、報酬のない、混合品質の豊富な非キュレーションデータを活用し、複数の実施形態にわたって収集される豊富な非キュレーションデータを活用することにより、オフラインからオンラインのRLの使用可能なデータのプールを拡張します。
世界モデルを学ぶことはそのようなデータを利用するのに有望であるように見えますが、素朴な微調整が多くのタスクでRLトレーニングを加速できないことがわかります。
慎重な調査を通じて、この失敗は、微調整中のオフラインデータとオンラインデータの間の分布シフトに起因すると考えています。
この問題に対処し、オフラインデータを効果的に使用するために、2つの重要な手法を提案します。
これらの変更により、非キュレーションのオフラインデータにより、RLのサンプル効率が大幅に向上します。
限られたサンプル予算では、6つの実施形態にまたがる72の視覚運動タスクにわたるSCRATCのベースラインの学習上の総スコアの102.8%の相対的な改善を達成します。
移動やロボット操作などの挑戦的なタスクでは、オフラインデータを適切なマージンで利用する以前の方法よりも優れています。
要約(オリジナル)
Leveraging offline data is a promising way to improve the sample efficiency of online reinforcement learning (RL). This paper expands the pool of usable data for offline-to-online RL by leveraging abundant non-curated data that is reward-free, of mixed quality, and collected across multiple embodiments. Although learning a world model appears promising for utilizing such data, we find that naive fine-tuning fails to accelerate RL training on many tasks. Through careful investigation, we attribute this failure to the distributional shift between offline and online data during fine-tuning. To address this issue and effectively use the offline data, we propose two essential techniques: \emph{i)} experience rehearsal and \emph{ii)} execution guidance. With these modifications, the non-curated offline data substantially improves RL’s sample efficiency. Under limited sample budgets, our method achieves a 102.8\% relative improvement in aggregate score over learning-from-scratch baselines across 72 visuomotor tasks spanning 6 embodiments. On challenging tasks such as locomotion and robotic manipulation, it outperforms prior methods that utilize offline data by a decent margin.
arxiv情報
著者 | Yi Zhao,Aidan Scannell,Wenshuai Zhao,Yuxin Hou,Tianyu Cui,Le Chen,Dieter Büchler,Arno Solin,Juho Kannala,Joni Pajarinen |
発行日 | 2025-05-18 21:26:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google