要約
VINGS-Mono は、大規模なシーン向けに設計された単眼 (慣性) ガウス スプラッティング (GS) SLAM フレームワークです。
このフレームワークは、VIO フロント エンド、2D ガウス マップ、NVS ループ クロージャ、およびダイナミック イレイサーの 4 つの主要コンポーネントで構成されます。
VIO フロントエンドでは、RGB フレームが高密度バンドル調整と不確実性推定を通じて処理され、シーンのジオメトリとポーズが抽出されます。
この出力に基づいて、マッピング モジュールは 2D ガウス マップを段階的に構築し、維持します。
2D ガウス マップの主要なコンポーネントには、サンプルベースのラスタライザー、スコア マネージャー、ポーズ調整が含まれており、これらが集合的にマッピング速度と位置特定の精度を向上させます。
これにより、SLAM システムは最大 5,000 万のガウス楕円体を含む大規模な都市環境を処理できるようになります。
大規模なシーンでグローバルな一貫性を確保するために、ループ クロージャー モジュールを設計します。これは、ループ クロージャーの検出とガウス マップの修正にガウス スプラッティングの Novel View Synthesis (NVS) 機能を革新的に活用します。
さらに、現実世界の屋外シーンにおける動的オブジェクトの避けられない存在に対処するために、Dynamic Eraser を提案します。
屋内および屋外環境での広範な評価により、私たちのアプローチが最近の GS/NeRF SLAM 手法を超えながら、視覚慣性オドメトリと同等の位置特定パフォーマンスを達成することが実証されました。
また、マッピングとレンダリングの品質の点で、既存のすべての方法よりも大幅に優れています。
さらに、モバイルアプリを開発し、スマートフォンのカメラと低周波IMUセンサーのみを使用して、フレームワークが高品質のガウスマップをリアルタイムで生成できることを検証しました。
私たちの知る限り、VINGS-Mono は、屋外環境で動作し、キロメートル規模の大規模シーンをサポートできる初の単眼ガウス SLAM 方式です。
要約(オリジナル)
VINGS-Mono is a monocular (inertial) Gaussian Splatting (GS) SLAM framework designed for large scenes. The framework comprises four main components: VIO Front End, 2D Gaussian Map, NVS Loop Closure, and Dynamic Eraser. In the VIO Front End, RGB frames are processed through dense bundle adjustment and uncertainty estimation to extract scene geometry and poses. Based on this output, the mapping module incrementally constructs and maintains a 2D Gaussian map. Key components of the 2D Gaussian Map include a Sample-based Rasterizer, Score Manager, and Pose Refinement, which collectively improve mapping speed and localization accuracy. This enables the SLAM system to handle large-scale urban environments with up to 50 million Gaussian ellipsoids. To ensure global consistency in large-scale scenes, we design a Loop Closure module, which innovatively leverages the Novel View Synthesis (NVS) capabilities of Gaussian Splatting for loop closure detection and correction of the Gaussian map. Additionally, we propose a Dynamic Eraser to address the inevitable presence of dynamic objects in real-world outdoor scenes. Extensive evaluations in indoor and outdoor environments demonstrate that our approach achieves localization performance on par with Visual-Inertial Odometry while surpassing recent GS/NeRF SLAM methods. It also significantly outperforms all existing methods in terms of mapping and rendering quality. Furthermore, we developed a mobile app and verified that our framework can generate high-quality Gaussian maps in real time using only a smartphone camera and a low-frequency IMU sensor. To the best of our knowledge, VINGS-Mono is the first monocular Gaussian SLAM method capable of operating in outdoor environments and supporting kilometer-scale large scenes.
arxiv情報
著者 | Ke Wu,Zicheng Zhang,Muer Tie,Ziqing Ai,Zhongxue Gan,Wenchao Ding |
発行日 | 2025-01-14 18:01:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google