Finetuning Offline World Models in the Real World

要約

強化学習 (RL) はデータ効率が悪いことで知られており、実際のロボットでのトレーニングが困難になります。
モデルベースの RL アルゴリズム (ワールド モデル) はデータ効率をある程度向上させますが、スキルを習得するには依然として数時間または数日間の対話が必要です。
最近、オフライン RL は、オンラインでの対話を行わずに既存のデータセットで RL ポリシーをトレーニングするためのフレームワークとして提案されています。
ただし、アルゴリズムを固定データセットに制約すると、トレーニングと推論の間で状態アクションの分布が変化し、新しいタスクへの適用が制限されます。
この研究では、両方の利点を最大限に活用することを目指しています。つまり、実際のロボットで収集したオフライン データを使用してワールド モデルを事前トレーニングし、学習したモデルを使用して計画を立てることによって収集したオンライン データに基づいてモデルを微調整するという問題を検討します。
オンライン対話中の外挿誤差を軽減するために、推定収益と (認識論的な) モデルの不確実性のバランスをとることによって、テスト時にプランナーを正規化することを提案します。
私たちは、シミュレーションおよび実際のロボット上のさまざまな視覚運動制御タスクでこの手法を評価しました。その結果、オフライン データが限られている場合でも、この手法により、目に見えるタスクと目に見えないタスクを数ショットで微調整できることがわかりました。
ビデオ、コード、データは https://yunhaifeng.com/FOWM で入手できます。

要約(オリジナル)

Reinforcement Learning (RL) is notoriously data-inefficient, which makes training on a real robot difficult. While model-based RL algorithms (world models) improve data-efficiency to some extent, they still require hours or days of interaction to learn skills. Recently, offline RL has been proposed as a framework for training RL policies on pre-existing datasets without any online interaction. However, constraining an algorithm to a fixed dataset induces a state-action distribution shift between training and inference, and limits its applicability to new tasks. In this work, we seek to get the best of both worlds: we consider the problem of pretraining a world model with offline data collected on a real robot, and then finetuning the model on online data collected by planning with the learned model. To mitigate extrapolation errors during online interaction, we propose to regularize the planner at test-time by balancing estimated returns and (epistemic) model uncertainty. We evaluate our method on a variety of visuo-motor control tasks in simulation and on a real robot, and find that our method enables few-shot finetuning to seen and unseen tasks even when offline data is limited. Videos, code, and data are available at https://yunhaifeng.com/FOWM .

arxiv情報

著者 Yunhai Feng,Nicklas Hansen,Ziyan Xiong,Chandramouli Rajagopalan,Xiaolong Wang
発行日 2023-10-24 17:46:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク