要約
機械学習における事前トレーニングと微調整のパラダイムは、インターネット上の既存のデータまたは事前トレーニングされたモデルを使用することで、新しいタスクを迅速かつ簡単に学習できるため、幅広い分野で劇的な成功を収めています。
私たちは、ロボット強化学習においてこのパラダイムを実現し、インターネットからのデータとモデルを活用することで、人間の労力をほとんど使わずにロボットが新しいタスクを学習できるようにすることを目指しています。
ただし、強化学習では、ポリシーが事前にトレーニングされている場合でも、手動による報酬の指定や環境のリセットという形で多くの人的労力が必要になることがよくあります。
以前の経験のさまざまなデータセットからマルチタスク操作ポリシーを事前トレーニングし、オンラインで自己改善して最小限の人的介入で目標タスクを学習する、リセット不要の微調整システムである RoboFuME を紹介します。
私たちの洞察は、調整されたオフライン強化学習技術を利用して、分布の変化が存在する場合でも事前トレーニングされたポリシーの効率的なオンライン微調整を保証し、事前トレーニングされたビジョン言語モデル (VLM) を活用して自律的に報酬を提供するための堅牢な報酬分類器を構築することです。
オンライン微調整プロセス中の信号。
5 つの実際のロボット操作タスクの多様なセットで、私たちの方法が別の機関で収集された既存のロボット データセットからのデータを組み込んで、わずか 3 時間の自律的な現実世界の経験内でターゲット タスクを改善できることを示します。
また、シミュレーション実験では、私たちの方法が、報酬を予測するために異なる RL アルゴリズムまたは異なるアプローチを使用する以前の研究よりも優れていることも示しています。
プロジェクトWebサイト:https://robofume.github.io
要約(オリジナル)
The pre-train and fine-tune paradigm in machine learning has had dramatic success in a wide range of domains because the use of existing data or pre-trained models on the internet enables quick and easy learning of new tasks. We aim to enable this paradigm in robotic reinforcement learning, allowing a robot to learn a new task with little human effort by leveraging data and models from the Internet. However, reinforcement learning often requires significant human effort in the form of manual reward specification or environment resets, even if the policy is pre-trained. We introduce RoboFuME, a reset-free fine-tuning system that pre-trains a multi-task manipulation policy from diverse datasets of prior experiences and self-improves online to learn a target task with minimal human intervention. Our insights are to utilize calibrated offline reinforcement learning techniques to ensure efficient online fine-tuning of a pre-trained policy in the presence of distribution shifts and leverage pre-trained vision language models (VLMs) to build a robust reward classifier for autonomously providing reward signals during the online fine-tuning process. In a diverse set of five real robot manipulation tasks, we show that our method can incorporate data from an existing robot dataset collected at a different institution and improve on a target task within as little as 3 hours of autonomous real-world experience. We also demonstrate in simulation experiments that our method outperforms prior works that use different RL algorithms or different approaches for predicting rewards. Project website: https://robofume.github.io
arxiv情報
著者 | Jingyun Yang,Max Sobol Mark,Brandon Vu,Archit Sharma,Jeannette Bohg,Chelsea Finn |
発行日 | 2023-10-23 17:50:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google