要約
ランドマークベースのナビゲーション (例: 木の机に行く) と相対位置ナビゲーション (例: 5 メートル前方に移動) は、既存のロボット ナビゲーション方法論ではまったく異なる方法で解決される別個のナビゲーションの課題です。
ランドマークベースのナビゲーションを実行する方法において、接地オブジェクト中心の自然言語ナビゲーション命令を明確に評価するために、新しいデータセット OC-VLN を紹介します。
また、ロボットの観察やポーズに自然言語の指示を基礎付ける方法である Natural Language Grounded SLAM (NL-SLAM) も提案します。
オブジェクト中心の自然言語ナビゲーション命令に従うために、NL-SLAM を積極的に実行します。
私たちのメソッドは、事前にトレーニングされた視覚と言語の基礎モデルを活用しており、タスク固有のトレーニングは必要ありません。
私たちは、オブジェクト ゴール ナビゲーションとビジョン ランゲージ ナビゲーションという関連タスクに関する最先端の手法から 2 つの強力なベースラインを構築し、私たちのアプローチである NL-SLAM が、OC-VLN のすべての成功指標にわたってこれらのベースラインを上回るパフォーマンスを示しています。
。
最後に、実世界のボストン ダイナミクス スポット ロボット上でナビゲーション指示を実行するための NL-SLAM の有効性を実証することに成功しました。
要約(オリジナル)
Landmark-based navigation (e.g. go to the wooden desk) and relative positional navigation (e.g. move 5 meters forward) are distinct navigation challenges solved very differently in existing robotics navigation methodology. We present a new dataset, OC-VLN, in order to distinctly evaluate grounding object-centric natural language navigation instructions in a method for performing landmark-based navigation. We also propose Natural Language grounded SLAM (NL-SLAM), a method to ground natural language instruction to robot observations and poses. We actively perform NL-SLAM in order to follow object-centric natural language navigation instructions. Our methods leverage pre-trained vision and language foundation models and require no task-specific training. We construct two strong baselines from state-of-the-art methods on related tasks, Object Goal Navigation and Vision Language Navigation, and we show that our approach, NL-SLAM, outperforms these baselines across all our metrics of success on OC-VLN. Finally, we successfully demonstrate the effectiveness of NL-SLAM for performing navigation instruction following in the real world on a Boston Dynamics Spot robot.
arxiv情報
著者 | Sonia Raychaudhuri,Duy Ta,Katrina Ashton,Angel X. Chang,Jiuguang Wang,Bernadette Bucher |
発行日 | 2024-11-12 15:01:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google