Language-EXtended Indoor SLAM (LEXIS): A Versatile System for Real-time Visual Scene Understanding

要約

多用途かつ適応的な意味理解により、自律システムが周囲の環境を理解し、相互作用できるようになります。
既存の固定クラス モデルでは、屋内モバイルおよび支援自律システムの適応性が制限されます。
この研究では、大規模言語モデル (LLM) のオープン語彙の性質を利用して、シーンの理解と場所の認識に対する統一されたアプローチを作成する、リアルタイムの屋内同時ローカリゼーションおよびマッピング (SLAM) システムである LEXIS を紹介します。
このアプローチでは、まず環境のトポロジカル SLAM グラフを構築し (視覚慣性オドメトリを使用)、グラフ ノードに Contrastive Language-Image Pretraining (CLIP) 機能を埋め込みます。
この表現を柔軟な部屋の分類とセグメント化に使用し、部屋中心の場所認識の基礎として機能します。
これにより、ループ クロージャの検索を意​​味的に関連する場所に向けることができます。
私たちが提案するシステムは、オフィスと家庭の環境をカバーする公開のシミュレートされたデータと現実世界のデータの両方を使用して評価されます。
さまざまなレイアウトや寸法を持つ部屋を適切に分類し、最先端 (SOTA) を上回るパフォーマンスを発揮します。
場所認識および軌道推定タスクでは、SOTA と同等のパフォーマンスを達成し、すべて同じ事前トレーニング済みモデルを利用します。
最後に、計画におけるシステムの可能性を示します。

要約(オリジナル)

Versatile and adaptive semantic understanding would enable autonomous systems to comprehend and interact with their surroundings. Existing fixed-class models limit the adaptability of indoor mobile and assistive autonomous systems. In this work, we introduce LEXIS, a real-time indoor Simultaneous Localization and Mapping (SLAM) system that harnesses the open-vocabulary nature of Large Language Models (LLMs) to create a unified approach to scene understanding and place recognition. The approach first builds a topological SLAM graph of the environment (using visual-inertial odometry) and embeds Contrastive Language-Image Pretraining (CLIP) features in the graph nodes. We use this representation for flexible room classification and segmentation, serving as a basis for room-centric place recognition. This allows loop closure searches to be directed towards semantically relevant places. Our proposed system is evaluated using both public, simulated data and real-world data, covering office and home environments. It successfully categorizes rooms with varying layouts and dimensions and outperforms the state-of-the-art (SOTA). For place recognition and trajectory estimation tasks we achieve equivalent performance to the SOTA, all also utilizing the same pre-trained model. Lastly, we demonstrate the system’s potential for planning.

arxiv情報

著者 Christina Kassab,Matias Mattamala,Lintong Zhang,Maurice Fallon
発行日 2024-03-05 15:05:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO, eess.IV パーマリンク