Visual Localization in 3D Maps: Comparing Point Cloud, Mesh, and NeRF Representations

要約

この論文では、視覚センシングとライダーセンシングの両方を使用して構築されたカラー 3D マップ表現内でカメラ画像の位置を特定できる、クロスモーダルのグローバル視覚位置特定システムを紹介し、評価します。
カラー 3D マップを作成するための 3 つの異なる最先端の方法、つまり点群、メッシュ、神経放射フィールド (NeRF) を紹介します。
私たちのシステムは、これらの表現から合成 RGB と深度画像のペアのデータベースを構築します。
このデータベースは、グローバル ローカリゼーションの基礎として機能します。
シーンの新しい画像を合成し、さまざまな表現でエンコードされた 3D 構造を利用することで、このデータベースを構築する自動アプローチを提案します。
次に、合成画像データベースに依存して、単眼クエリ画像の 6 DoF カメラのポーズを正確に推定するグローバル位置特定システムを紹介します。
私たちの位置特定アプローチは、さまざまな学習ベースのグローバル記述子と特徴検出器に依存しており、(実際の) クエリ カメラ画像と合成データベース画像の間にドメイン ギャップがあるにもかかわらず、堅牢な画像検索とマッチングを可能にします。
各マップ表現の有効性と、従来の構造から動きによる位置特定アプローチに対する利点を評価するために、屋内と屋外の両方の設定で広範な現実世界の実験を通じてシステムのパフォーマンスを評価します。
私たちの結果は、3 つのマップ表現すべてが、さまざまな環境にわたって 55% 以上の一貫したローカリゼーション成功率を達成できることを示しています。
NeRF 合成画像は優れたパフォーマンスを示し、平均 72% の成功率でクエリ画像の位置を特定します。
さらに、逆方向に移動しているときに地図作成データと位置特定シーケンスがキャプチャされた場合でも、合成されたデータベースがグローバル位置特定を可能にすることを実証します。
私たちのシステムは、GPU を搭載したモバイル ラップトップ上でリアルタイムで動作し、1Hz の処理速度を達成しています。

要約(オリジナル)

This paper introduces and assesses a cross-modal global visual localization system that can localize camera images within a color 3D map representation built using both visual and lidar sensing. We present three different state-of-the-art methods for creating the color 3D maps: point clouds, meshes, and neural radiance fields (NeRF). Our system constructs a database of synthetic RGB and depth image pairs from these representations. This database serves as the basis for global localization. We present an automatic approach that builds this database by synthesizing novel images of the scene and exploiting the 3D structure encoded in the different representations. Next, we present a global localization system that relies on the synthetic image database to accurately estimate the 6 DoF camera poses of monocular query images. Our localization approach relies on different learning-based global descriptors and feature detectors which enable robust image retrieval and matching despite the domain gap between (real) query camera images and the synthetic database images. We assess the system’s performance through extensive real-world experiments in both indoor and outdoor settings, in order to evaluate the effectiveness of each map representation and the benefits against traditional structure-from-motion localization approaches. Our results show that all three map representations can achieve consistent localization success rates of 55% and higher across various environments. NeRF synthesized images show superior performance, localizing query images at an average success rate of 72%. Furthermore, we demonstrate that our synthesized database enables global localization even when the map creation data and the localization sequence are captured when travelling in opposite directions. Our system, operating in real-time on a mobile laptop equipped with a GPU, achieves a processing rate of 1Hz.

arxiv情報

著者 Lintong Zhang,Yifu Tao,Jiarong Lin,Fu Zhang,Maurice Fallon
発行日 2024-08-21 19:37:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク