MCOO-SLAM: A Multi-Camera Omnidirectional Object SLAM System

要約

オブジェクトレベルのSLAMは、構造化された意味的に意味のある環境表現を提供し、高レベルのロボットタスクにより解釈可能で適しています。
ただし、既存のアプローチのほとんどは、RGB-Dセンサーまたは単眼ビューに依存しています。これは、特に大規模または屋外環境で、視野の狭い視野、閉塞感度、および限られた深さ知覚に悩まされています。
これらの制限により、システムが限られた視点からオブジェクトの部分的なビューのみを観察することに制限されていることが多く、オブジェクトのモデリングと信頼性の低いデータ関連につながります。
この作業では、複雑な屋外シナリオで堅牢で一貫した、意味的に濃縮されたマッピングを実現するためにサラウンドビューカメラの構成を完全に活用する新しいマルチカメラ全様式オブジェクトスラムシステムであるMCOO-SLAMを提案します。
当社のアプローチは、オープンボキャブラリーセマンティクスで強化されたポイント機能とオブジェクトレベルのランドマークを統合します。
複数のビューにわたって堅牢なオブジェクトアソシエーションのためにセマンティックジョーメトリックの融合融合戦略が導入され、一貫性と正確なオブジェクトモデリングの改善につながり、シーンレベルの記述子を使用した視点型範囲認識を有効にするように設計されています。
さらに、構築されたマップは、下流の推論タスクをサポートするために、階層的な3Dシーングラフに抽象化されています。
現実世界での広範な実験は、MCOO-SLAMが正確なローカリゼーションとスケーラブルなオブジェクトレベルのマッピングを達成し、閉塞、ポーズの変動、環境の複雑さに対する堅牢性が向上したことを示しています。

要約(オリジナル)

Object-level SLAM offers structured and semantically meaningful environment representations, making it more interpretable and suitable for high-level robotic tasks. However, most existing approaches rely on RGB-D sensors or monocular views, which suffer from narrow fields of view, occlusion sensitivity, and limited depth perception-especially in large-scale or outdoor environments. These limitations often restrict the system to observing only partial views of objects from limited perspectives, leading to inaccurate object modeling and unreliable data association. In this work, we propose MCOO-SLAM, a novel Multi-Camera Omnidirectional Object SLAM system that fully leverages surround-view camera configurations to achieve robust, consistent, and semantically enriched mapping in complex outdoor scenarios. Our approach integrates point features and object-level landmarks enhanced with open-vocabulary semantics. A semantic-geometric-temporal fusion strategy is introduced for robust object association across multiple views, leading to improved consistency and accurate object modeling, and an omnidirectional loop closure module is designed to enable viewpoint-invariant place recognition using scene-level descriptors. Furthermore, the constructed map is abstracted into a hierarchical 3D scene graph to support downstream reasoning tasks. Extensive experiments in real-world demonstrate that MCOO-SLAM achieves accurate localization and scalable object-level mapping with improved robustness to occlusion, pose variation, and environmental complexity.

arxiv情報

著者 Miaoxin Pan,Jinnan Li,Yaowen Zhang,Yi Yang,Yufeng Yue
発行日 2025-06-18 12:20:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク