ModaLink: Unifying Modalities for Efficient Image-to-PointCloud Place Recognition

要約

場所認識は、ロボットや自動運転車が自らの位置を特定し、事前に構築されたマップ内のループを閉じるための重要なタスクです。
シングルモーダルのセンサーベースの方法は満足のいくパフォーマンスを示していますが、点群データベースから画像を取得するクロスモーダルの場所認識は依然として困難な問題です。
現在のクロスモーダル手法は、モダリティ変換に深度推定を使用して画像を 3D ポイントに変換しますが、これは通常、計算量が多く、深度監視のために高価なラベル付きデータが必要です。
この研究では、画像と点群を場所を区別する記述子にエンコードするための高速かつ軽量のフレームワークを導入します。
点群を画像と同様のモダリティに変換する効果的な視野 (FoV) 変換モジュールを提案します。
このモジュールにより、深度推定の必要性がなくなり、後続のモジュールがリアルタイム パフォーマンスを達成できるようになります。
さらに、点群と画像の間で相互に一貫した意味特徴を抽出するために、非負因数分解ベースのエンコーダを設計します。
このエンコーダは、検索用に、より特徴的なグローバル記述子を生成します。
KITTI データセットの実験結果は、私たちが提案した手法がリアルタイムで実行しながら最先端のパフォーマンスを達成することを示しています。
17 km の軌道をカバーする HAOMO データセットの追加評価により、実用的な一般化機能がさらに示されました。
私たちはメソッドの実装をオープンソースとして https://github.com/haomo-ai/ModaLink.git でリリースしました。

要約(オリジナル)

Place recognition is an important task for robots and autonomous cars to localize themselves and close loops in pre-built maps. While single-modal sensor-based methods have shown satisfactory performance, cross-modal place recognition that retrieving images from a point-cloud database remains a challenging problem. Current cross-modal methods transform images into 3D points using depth estimation for modality conversion, which are usually computationally intensive and need expensive labeled data for depth supervision. In this work, we introduce a fast and lightweight framework to encode images and point clouds into place-distinctive descriptors. We propose an effective Field of View (FoV) transformation module to convert point clouds into an analogous modality as images. This module eliminates the necessity for depth estimation and helps subsequent modules achieve real-time performance. We further design a non-negative factorization-based encoder to extract mutually consistent semantic features between point clouds and images. This encoder yields more distinctive global descriptors for retrieval. Experimental results on the KITTI dataset show that our proposed methods achieve state-of-the-art performance while running in real time. Additional evaluation on the HAOMO dataset covering a 17 km trajectory further shows the practical generalization capabilities. We have released the implementation of our methods as open source at: https://github.com/haomo-ai/ModaLink.git.

arxiv情報

著者 Weidong Xie,Lun Luo,Nanfei Ye,Yi Ren,Shaoyi Du,Minhang Wang,Jintao Xu,Rui Ai,Weihao Gu,Xieyuanli Chen
発行日 2024-03-27 17:01:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク