要約
Semantic Simultaneous Localization and Mapping (SLAM) システムは、特に乱雑な屋内環境で、近接した意味的に類似したオブジェクトをマッピングするのに苦労します。
このような環境におけるオブジェクト レベルのセマンティック マッピングを強化するために、ビジョン言語モデル (VLM) とマルチモーダル大規模言語モデル (MLLM) を活用する新しい SLAM システムである Semantic Enhancement for Object SLAM (SEO-SLAM) を紹介します。
SEO-SLAM は、(1) MLLM を使用して、より具体的で説明的なオープン語彙オブジェクト ラベルを生成し、(2) 誤ったランドマークを引き起こす要因を同時に修正し、(3) オブジェクト検出器のバイアスを軽減するためにマルチクラス混同行列を動的に更新することによって、既存の課題に取り組みます。
私たちのアプローチにより、MLLM フィードバックを通じてシーンの変化を反映することで、類似したオブジェクト間のより正確な区別が可能になり、マップの一貫性が維持されます。
私たちは、挑戦的なデータセットで SEO-SLAM を評価し、複数の同様のオブジェクトがある環境での精度と堅牢性の向上を実証します。
私たちのシステムは、ランドマーク照合の精度と意味の一貫性の点で既存のアプローチよりも優れています。
結果は、MLLM からのフィードバックによりオブジェクト中心のセマンティック マッピングが向上することを示しています。
私たちのデータセットは、jungseokhong.com/SEO-SLAM で公開されています。
要約(オリジナル)
Semantic Simultaneous Localization and Mapping (SLAM) systems struggle to map semantically similar objects in close proximity, especially in cluttered indoor environments. We introduce Semantic Enhancement for Object SLAM (SEO-SLAM), a novel SLAM system that leverages Vision-Language Models (VLMs) and Multimodal Large Language Models (MLLMs) to enhance object-level semantic mapping in such environments. SEO-SLAM tackles existing challenges by (1) generating more specific and descriptive open-vocabulary object labels using MLLMs, (2) simultaneously correcting factors causing erroneous landmarks, and (3) dynamically updating a multiclass confusion matrix to mitigate object detector biases. Our approach enables more precise distinctions between similar objects and maintains map coherence by reflecting scene changes through MLLM feedback. We evaluate SEO-SLAM on our challenging dataset, demonstrating enhanced accuracy and robustness in environments with multiple similar objects. Our system outperforms existing approaches in terms of landmark matching accuracy and semantic consistency. Results show the feedback from MLLM improves object-centric semantic mapping. Our dataset is publicly available at: jungseokhong.com/SEO-SLAM.
arxiv情報
著者 | Jungseok Hong,Ran Choi,John J. Leonard |
発行日 | 2024-11-11 07:10:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google