要約
世界には多種多様な物体があふれている。ロボットが有用であるためには、人が記述した任意の物体を見つける能力が必要である。本論文では、LeLaN(Learning Language-conditioned Navigation policy)を紹介する。LeLaNは、スケーラブルな言語条件付き物体ナビゲーションを学習するために、ラベル付けされていない、行動のない自己中心的データを消費する新しいアプローチである。私たちのフレームワークLeLaNは、屋内外の様々な環境から得られた実環境データをラベル付けするために、ロボット基盤モデルと同様に、大規模な視覚言語モデルの意味的知識を活用する。ロボットの観察、YouTubeのビデオツアー、人間の歩行データなど、実際の屋内外の環境で収集された130時間以上のデータにラベル付けを行う。1000を超える実世界の試行による広範な実験により、我々のアプローチが、最新のロボットナビゲーション手法を凌駕する、ラベル付けされていないアクションフリー動画からのポリシーの学習を可能にし、同時に、エッジ計算において彼らの4倍の速度で推論が可能であることが示された。我々のモデル、データセットをオープンソース化し、プロジェクトページ(https://learning-language-navigation.github.io/)で補足ビデオを提供している。
要約(オリジナル)
The world is filled with a wide variety of objects. For robots to be useful, they need the ability to find arbitrary objects described by people. In this paper, we present LeLaN(Learning Language-conditioned Navigation policy), a novel approach that consumes unlabeled, action-free egocentric data to learn scalable, language-conditioned object navigation. Our framework, LeLaN leverages the semantic knowledge of large vision-language models, as well as robotic foundation models, to label in-the-wild data from a variety of indoor and outdoor environments. We label over 130 hours of data collected in real-world indoor and outdoor environments, including robot observations, YouTube video tours, and human walking data. Extensive experiments with over 1000 real-world trials show that our approach enables training a policy from unlabeled action-free videos that outperforms state-of-the-art robot navigation methods, while being capable of inference at 4 times their speed on edge compute. We open-source our models, datasets and provide supplementary videos on our project page (https://learning-language-navigation.github.io/).
arxiv情報
著者 | Noriaki Hirose,Catherine Glossop,Ajay Sridhar,Dhruv Shah,Oier Mees,Sergey Levine |
発行日 | 2024-10-04 17:03:14+00:00 |
arxivサイト | arxiv_id(pdf) |