MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot Learning

要約

私たちは、現実的なロボットタスクのコンテキストでの高次元観察からの強化学習のためのオフライン事前トレーニングとオンライン微調整の問題を研究します。
最近のオフライン モデルフリーのアプローチでは、オンラインの微調整をうまく利用して、データ収集ポリシーを超えてエージェントのパフォーマンスを向上させたり、新しいタスクに適応させたりしています。
同時に、モデルベースの RL アルゴリズムは、サンプル効率と解決できるタスクの複雑さにおいて大幅な進歩を遂げましたが、微調整設定では依然として十分に活用されていません。
この研究では、既存のモデルベースのオフライン RL 手法は、分布の変化、オフダイナミクス データ、非定常報酬の問題により、高次元領域でのオフラインからオンラインへの微調整には適していないと主張します。
我々は、認識論的不確実性を制御することでモデルの悪用を防ぎながら、モデルベースの値拡張とポリシーの正則化を通じて以前のデータを効率的に再利用できる、オンポリシーモデルベースの手法を提案します。
私たちのアプローチは、MetaWorld ベンチマークのタスクだけでなく、Franka Kitchen ロボット操作環境も画像から完全に解決できることがわかりました。
私たちの知る限り、MOTO はピクセルからこの環境を解決する最初の方法です。

要約(オリジナル)

We study the problem of offline pre-training and online fine-tuning for reinforcement learning from high-dimensional observations in the context of realistic robot tasks. Recent offline model-free approaches successfully use online fine-tuning to either improve the performance of the agent over the data collection policy or adapt to novel tasks. At the same time, model-based RL algorithms have achieved significant progress in sample efficiency and the complexity of the tasks they can solve, yet remain under-utilized in the fine-tuning setting. In this work, we argue that existing model-based offline RL methods are not suitable for offline-to-online fine-tuning in high-dimensional domains due to issues with distribution shifts, off-dynamics data, and non-stationary rewards. We propose an on-policy model-based method that can efficiently reuse prior data through model-based value expansion and policy regularization, while preventing model exploitation by controlling epistemic uncertainty. We find that our approach successfully solves tasks from the MetaWorld benchmark, as well as the Franka Kitchen robot manipulation environment completely from images. To the best of our knowledge, MOTO is the first method to solve this environment from pixels.

arxiv情報

著者 Rafael Rafailov,Kyle Hatch,Victor Kolev,John D. Martin,Mariano Phielipp,Chelsea Finn
発行日 2024-01-06 21:04:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク