Can an Embodied Agent Find Your ‘Cat-shaped Mug’? LLM-Guided Exploration for Zero-Shot Object Navigation

要約

我々は、言語駆動ゼロショット オブジェクト ゴール ナビゲーション (L-ZSON) の新しいアルゴリズムである LGX (言語ガイド探索) を紹介します。このアルゴリズムでは、身体化されたエージェントが、これまで見たことのない環境内で一意に記述されたターゲット オブジェクトに移動します。
私たちのアプローチでは、このタスクに大規模言語モデル (LLM) を利用し、LLM の常識的推論機能を利用して、順次ナビゲーション上の決定を下します。
同時に、事前にトレーニングされた視覚言語グラウンディング モデルを使用して、一般化された目標物体検出を実行します。
当社は、RoboTHOR で最先端のゼロショット オブジェクト ナビゲーション結果を達成し、OWL-ViT CLIP on Wheel (OWL CoW) の現在のベースラインと比較して成功率 (SR) が 27% 以上向上しました。
さらに、ロボット ナビゲーションのための LLM の使用法を研究し、モデルの出力に影響を与えるさまざまなプロンプト戦略の分析を示します。
最後に、視覚的にユニークなオブジェクトを検出してそこに移動する際の LGX の優れたパフォーマンスを示す \textit{現実世界} 実験を通じて、私たちのアプローチの利点を紹介します。

要約(オリジナル)

We present LGX (Language-guided Exploration), a novel algorithm for Language-Driven Zero-Shot Object Goal Navigation (L-ZSON), where an embodied agent navigates to a uniquely described target object in a previously unseen environment. Our approach makes use of Large Language Models (LLMs) for this task by leveraging the LLM’s commonsense reasoning capabilities for making sequential navigational decisions. Simultaneously, we perform generalized target object detection using a pre-trained Vision-Language grounding model. We achieve state-of-the-art zero-shot object navigation results on RoboTHOR with a success rate (SR) improvement of over 27% over the current baseline of the OWL-ViT CLIP on Wheels (OWL CoW). Furthermore, we study the usage of LLMs for robot navigation and present an analysis of various prompting strategies affecting the model output. Finally, we showcase the benefits of our approach via \textit{real-world} experiments that indicate the superior performance of LGX in detecting and navigating to visually unique objects.

arxiv情報

著者 Vishnu Sashank Dorbala,James F. Mullen Jr.,Dinesh Manocha
発行日 2023-11-05 20:49:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.RO パーマリンク