Tell Me Where You Are: Multimodal LLMs Meet Place Recognition

要約

大規模言語モデル (LLM) は、長期的な計画や常識的推論など、ロボット工学においてさまざまな有望な機能を示します。
ただし、その場での認識におけるパフォーマンスはまだ解明されていません。
この研究では、視覚的場所認識 (VPR) にマルチモーダル LLM (MLLM) を導入します。VPR では、ロボットは視覚的観察を使用して自身の位置を特定する必要があります。
私たちの主な設計は、ビジョンベースの検索を使用して複数の候補を提案し、次に言語ベースの推論を活用して各候補を慎重に検査して最終決定を下すことです。
具体的には、既製の視覚基盤モデル (VFM) によって生成される堅牢な視覚特徴を活用して、いくつかの候補地を取得します。
次に、MLLM に現在の観察と各候補の間の違いをペアごとに説明するよう促し、これらの説明に基づいて最適な候補について推論します。
3 つのデータセットに関する私たちの結果は、VFM の汎用視覚機能と MLLM の推論機能を統合することで、VPR 固有の教師付きトレーニングを行わなくても、効果的な場所認識ソリューションがすでに提供されていることを示しています。
私たちは、私たちの研究が、移動ロボットの位置特定とナビゲーションを強化するために、基礎モデル、つまり VFM、LLM、および MLLM を適用および設計するための新たな可能性を刺激できると信じています。

要約(オリジナル)

Large language models (LLMs) exhibit a variety of promising capabilities in robotics, including long-horizon planning and commonsense reasoning. However, their performance in place recognition is still underexplored. In this work, we introduce multimodal LLMs (MLLMs) to visual place recognition (VPR), where a robot must localize itself using visual observations. Our key design is to use vision-based retrieval to propose several candidates and then leverage language-based reasoning to carefully inspect each candidate for a final decision. Specifically, we leverage the robust visual features produced by off-the-shelf vision foundation models (VFMs) to obtain several candidate locations. We then prompt an MLLM to describe the differences between the current observation and each candidate in a pairwise manner, and reason about the best candidate based on these descriptions. Our results on three datasets demonstrate that integrating the general-purpose visual features from VFMs with the reasoning capabilities of MLLMs already provides an effective place recognition solution, without any VPR-specific supervised training. We believe our work can inspire new possibilities for applying and designing foundation models, i.e., VFMs, LLMs, and MLLMs, to enhance the localization and navigation of mobile robots.

arxiv情報

著者 Zonglin Lyu,Juexiao Zhang,Mingxuan Lu,Yiming Li,Chen Feng
発行日 2024-06-25 12:59:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク