Can an Embodied Agent Find Your ‘Cat-shaped Mug’? LLM-Based Zero-Shot Object Navigation

要約

オブジェクト ゴール ナビゲーションの新しいアルゴリズムである LGX を紹介します。これは、具体化されたエージェントが、これまで未踏の環境で任意に記述されたターゲット オブジェクトに移動する「言語主導のゼロ ショット方式」です。
私たちのアプローチは、Large Language Models (LLM) の機能を活用して、環境のセマンティック コンテキストに関する LLM の暗黙的な知識をロボットの動作計画のシーケンシャルな入力にマッピングすることで、ナビゲーションの決定を下します。
同時に、事前にトレーニングされたビジョン言語グラウンディング モデルを使用して、一般化されたターゲット オブジェクトの検出も行います。
RoboTHOR で最先端のゼロ ショット オブジェクト ナビゲーションの結果を達成し、OWL-ViT CLIP on Wheels (OWL CoW) の現在のベースラインよりも 27% 以上の成功率 (SR) 向上を達成しました。
さらに、ロボット ナビゲーションのための LLM の使用法を研究し、モデルの出力に影響を与えるさまざまなセマンティック要因の分析を提示します。
最後に、視覚的にユニークなオブジェクトに移動して検出する際の LGX の優れたパフォーマンスを示す実世界の実験を通じて、私たちのアプローチの利点を紹介します。

要約(オリジナル)

We present LGX, a novel algorithm for Object Goal Navigation in a ‘language-driven, zero-shot manner’, where an embodied agent navigates to an arbitrarily described target object in a previously unexplored environment. Our approach leverages the capabilities of Large Language Models (LLMs) for making navigational decisions by mapping the LLMs implicit knowledge about the semantic context of the environment into sequential inputs for robot motion planning. Simultaneously, we also conduct generalized target object detection using a pre-trained Vision-Language grounding model. We achieve state-of-the-art zero-shot object navigation results on RoboTHOR with a success rate (SR) improvement of over 27% over the current baseline of the OWL-ViT CLIP on Wheels (OWL CoW). Furthermore, we study the usage of LLMs for robot navigation and present an analysis of the various semantic factors affecting model output. Finally, we showcase the benefits of our approach via real-world experiments that indicate the superior performance of LGX when navigating to and detecting visually unique objects.

arxiv情報

著者 Vishnu Sashank Dorbala,James F. Mullen Jr.,Dinesh Manocha
発行日 2023-03-06 20:19:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.RO パーマリンク