VXP: Voxel-Cross-Pixel Large-scale Image-LiDAR Place Recognition

要約

グローバルな場所認識に関する最近の研究では、このタスクを検索問題として扱っており、一般に、既製のグローバル記述子が画像ベースおよび LiDAR ベースのモダリティで設計されています。
ただし、さまざまなドメイン (2D 画像と 3D 点群) から一貫性のある堅牢なグローバル記述子を抽出するのは困難であるため、正確な画像 LiDAR グローバル場所認識を実行することは簡単ではありません。
この問題に対処するために、自己教師ありの方法でボクセルとピクセルの対応を確立し、それらを共有特徴空間に持ち込む、新しいボクセル クロス ピクセル (VXP) アプローチを提案します。
具体的には、VXP は 2 段階の方法でトレーニングされます。最初にローカル特徴の対応を明示的に利用し、グローバル記述子の類似性を強制します。
3 つのベンチマーク (Oxford RobotCar、ViViD++、KITTI) に関する広範な実験により、私たちの方法が最先端のクロスモーダル検索を大幅に上回っていることが実証されました。

要約(オリジナル)

Recent works on the global place recognition treat the task as a retrieval problem, where an off-the-shelf global descriptor is commonly designed in image-based and LiDAR-based modalities. However, it is non-trivial to perform accurate image-LiDAR global place recognition since extracting consistent and robust global descriptors from different domains (2D images and 3D point clouds) is challenging. To address this issue, we propose a novel Voxel-Cross-Pixel (VXP) approach, which establishes voxel and pixel correspondences in a self-supervised manner and brings them into a shared feature space. Specifically, VXP is trained in a two-stage manner that first explicitly exploits local feature correspondences and enforces similarity of global descriptors. Extensive experiments on the three benchmarks (Oxford RobotCar, ViViD++ and KITTI) demonstrate our method surpasses the state-of-the-art cross-modal retrieval by a large margin.

arxiv情報

著者 Yun-Jin Li,Mariia Gladkova,Yan Xia,Rui Wang,Daniel Cremers
発行日 2024-03-21 17:49:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク