Robot Utility Models: General Policies for Zero-Shot Deployment in New Environments

要約

ロボット モデル、特に大量のデータでトレーニングされたロボット モデルは、最近、現実世界の操作およびナビゲーション能力を大量に発揮するようになりました。
いくつかの独立した取り組みにより、環境内で十分なトレーニング データが与えられると、ロボット ポリシーをその環境内で実証された変動に一般化できることが示されています。
ただし、新しい環境ごとにロボット モデルを微調整する必要があることは、オープンワールドの問題に対してゼロショットで展開できる言語やビジョンのモデルとはまったく対照的です。
この研究では、微調整せずに新しい環境に直接一般化できる、ゼロショット ロボット ポリシーをトレーニングおよび展開するためのフレームワークであるロボット ユーティリティ モデル (RUM) を紹介します。
RUM を効率的に作成するために、モバイル操作タスクのデータを迅速に収集し、そのようなデータをマルチモーダル模倣学習を使用してポリシーに統合し、外部ロボットを備えた安価な汎用ロボットである Hello Robot Strech 上のデバイス上にポリシーを展開するための新しいツールを開発します。
再試行用の mLLM ベリファイア。
私たちは、キャビネットのドアを開ける、引き出しを開ける、ナプキンを拾う、紙袋を拾う、落ちた物の向きを変えるといった 5 つの実用モデルをトレーニングします。
私たちのシステムは、目に見えないオブジェクトと対話する目に見えない新しい環境において、平均して 90% の成功率を達成します。
さらに、実用新案は、さらなるデータ、トレーニング、または微調整を必要とせずに、さまざまなロボットやカメラのセットアップでも成功することができます。
私たちの教訓の中で主なものは、トレーニング アルゴリズムやポリシー クラスよりもトレーニング データの重要性、データ スケーリングに関するガイダンス、多様かつ高品質なデモンストレーションの必要性、個々の環境でのパフォーマンスを向上させるためのロボットのイントロスペクションと再試行のレシピです。
私たちのコード、データ、モデル、ハードウェア設計、および実験と展開のビデオはオープンソースであり、プロジェクトの Web サイト (https://robotutilitymodels.com) でご覧いただけます。

要約(オリジナル)

Robot models, particularly those trained with large amounts of data, have recently shown a plethora of real-world manipulation and navigation capabilities. Several independent efforts have shown that given sufficient training data in an environment, robot policies can generalize to demonstrated variations in that environment. However, needing to finetune robot models to every new environment stands in stark contrast to models in language or vision that can be deployed zero-shot for open-world problems. In this work, we present Robot Utility Models (RUMs), a framework for training and deploying zero-shot robot policies that can directly generalize to new environments without any finetuning. To create RUMs efficiently, we develop new tools to quickly collect data for mobile manipulation tasks, integrate such data into a policy with multi-modal imitation learning, and deploy policies on-device on Hello Robot Stretch, a cheap commodity robot, with an external mLLM verifier for retrying. We train five such utility models for opening cabinet doors, opening drawers, picking up napkins, picking up paper bags, and reorienting fallen objects. Our system, on average, achieves 90% success rate in unseen, novel environments interacting with unseen objects. Moreover, the utility models can also succeed in different robot and camera set-ups with no further data, training, or fine-tuning. Primary among our lessons are the importance of training data over training algorithm and policy class, guidance about data scaling, necessity for diverse yet high-quality demonstrations, and a recipe for robot introspection and retrying to improve performance on individual environments. Our code, data, models, hardware designs, as well as our experiment and deployment videos are open sourced and can be found on our project website: https://robotutilitymodels.com

arxiv情報

著者 Haritheja Etukuru,Norihito Naka,Zijin Hu,Seungjae Lee,Julian Mehu,Aaron Edsinger,Chris Paxton,Soumith Chintala,Lerrel Pinto,Nur Muhammad Mahi Shafiullah
発行日 2024-09-09 17:59:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク