AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents

要約

言語、視覚、さらに最近ではアクションを組み込んだ基盤モデルは、インターネット規模のデータを活用して有用なタスクを推論する能力に革命をもたらしました。
ただし、具体化された基礎モデルをトレーニングする際の主要な課題の 1 つは、物理世界に基づいたデータが不足していることです。
この論文では、既存の基盤モデルを活用して、人間の監視を最小限に抑えながら、まったく目に見えないシナリオで運用ロボットの展開をスケールアップするシステムである AutoRT を提案します。
AutoRT は、シーンの理解とグラウンディングにビジョン言語モデル (VLM) を活用し、さらに大規模言語モデル (LLM) を使用して、ロボット群によって実行される多様で斬新な命令を提案します。
基礎モデルの知識を活用してデータ収集をガイドすることで、AutoRT はロボット学習のためのデータ収集を大幅にスケールアップしながら、自律性のトレードオフと安全性について効果的に推論できるようになります。
AutoRT が複数の建物にわたる 20 台以上のロボットに指示を提案し、遠隔操作と自律ロボット ポリシーの両方を通じて 77,000 の実際のロボット エピソードを収集することを示します。
私たちは、AutoRT によって収集されるこのような「自然界の」データははるかに多様であること、および AutoRT が LLM を使用することで、人間の好みに合わせたデータ収集ロボットに従う指示が可能になることを実験的に示しています。

要約(オリジナル)

Foundation models that incorporate language, vision, and more recently actions have revolutionized the ability to harness internet scale data to reason about useful tasks. However, one of the key challenges of training embodied foundation models is the lack of data grounded in the physical world. In this paper, we propose AutoRT, a system that leverages existing foundation models to scale up the deployment of operational robots in completely unseen scenarios with minimal human supervision. AutoRT leverages vision-language models (VLMs) for scene understanding and grounding, and further uses large language models (LLMs) for proposing diverse and novel instructions to be performed by a fleet of robots. Guiding data collection by tapping into the knowledge of foundation models enables AutoRT to effectively reason about autonomy tradeoffs and safety while significantly scaling up data collection for robot learning. We demonstrate AutoRT proposing instructions to over 20 robots across multiple buildings and collecting 77k real robot episodes via both teleoperation and autonomous robot policies. We experimentally show that such ‘in-the-wild’ data collected by AutoRT is significantly more diverse, and that AutoRT’s use of LLMs allows for instruction following data collection robots that can align to human preferences.

arxiv情報

著者 Michael Ahn,Debidatta Dwibedi,Chelsea Finn,Montse Gonzalez Arenas,Keerthana Gopalakrishnan,Karol Hausman,Brian Ichter,Alex Irpan,Nikhil Joshi,Ryan Julian,Sean Kirmani,Isabel Leal,Edward Lee,Sergey Levine,Yao Lu,Isabel Leal,Sharath Maddineni,Kanishka Rao,Dorsa Sadigh,Pannag Sanketi,Pierre Sermanet,Quan Vuong,Stefan Welker,Fei Xia,Ted Xiao,Peng Xu,Steve Xu,Zhuo Xu
発行日 2024-07-02 01:52:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG, cs.RO パーマリンク