Reflex-Based Open-Vocabulary Navigation without Prior Knowledge Using Omnidirectional Camera and Multiple Vision-Language Models

要約

さまざまなロボットのナビゲーション手法が開発されていますが、それらは主に、事前の地図構築または学習を必要とする同時位置推定およびマッピング (SLAM) や強化学習などに基づいています。
本研究では、地図の構築や学習を必要としない最も単純な方法を検討し、事前知識なしでロボットのオープンボキャブラリナビゲーションを実行します。
全方位カメラと事前訓練された視覚言語モデルをロボットに適用しました。
全方位カメラは周囲の均一なビューを提供するため、軌道の生成などの複雑な探索行動の必要がなくなります。
この全方位画像に複数の事前トレーニング済み視覚言語モデルを適用し、反射動作を組み込むことで、ナビゲーションがシンプルになり、事前のセットアップが不要になることを示します。
私たちの方法の興味深い特性と限界について、移動ロボット Fetch を使った実験に基づいて説明します。

要約(オリジナル)

Various robot navigation methods have been developed, but they are mainly based on Simultaneous Localization and Mapping (SLAM), reinforcement learning, etc., which require prior map construction or learning. In this study, we consider the simplest method that does not require any map construction or learning, and execute open-vocabulary navigation of robots without any prior knowledge to do this. We applied an omnidirectional camera and pre-trained vision-language models to the robot. The omnidirectional camera provides a uniform view of the surroundings, thus eliminating the need for complicated exploratory behaviors including trajectory generation. By applying multiple pre-trained vision-language models to this omnidirectional image and incorporating reflective behaviors, we show that navigation becomes simple and does not require any prior setup. Interesting properties and limitations of our method are discussed based on experiments with the mobile robot Fetch.

arxiv情報

著者 Kento Kawaharazuka,Yoshiki Obinata,Naoaki Kanazawa,Naoto Tsukamoto,Kei Okada,Masayuki Inaba
発行日 2024-08-21 07:18:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY パーマリンク