GSPR: Multimodal Place Recognition Using 3D Gaussian Splatting for Autonomous Driving

要約

場所の認識は、自律型の車両がGPS除去された環境でローカリゼーション結果を取得できるようにする重要なコンポーネントです。
近年、マルチモーダルの場所認識方法が注目を集めています。
彼らは、異なるモダリティからの補完的な情報を活用することにより、ユニモーダルセンサーシステムの弱点を克服します。
ただし、ほとんどの既存の方法は、解釈可能性の欠如に苦しんでいる機能レベルまたは記述子レベルの融合を介した交差モダリティの相関を調査します。
逆に、最近提案された3Dガウスの飛び散は、異なるモダリティを明示的なシーン表現に調和させることにより、マルチモーダル融合に関する新しい視点を提供します。
この論文では、GSPRと呼ばれる3Dガウスのスプラッティングベースのマルチモーダル場所認識ネットワークを提案します。
マルチビューRGB画像とライダーポイントクラウドを、提案されたマルチモーダルガウススプラッティングとともに、時空間的に統一されたシーン表現に明示的に組み合わせています。
3Dグラフの畳み込みと変圧器で構成されるネットワークは、場所認識のためにガウスシーンから時空間的特徴とグローバルな記述子を抽出するように設計されています。
3つのデータセットでの広範な評価は、この方法がマルチビューカメラとLIDARの両方の補完的な強さを効果的に活用し、ソタの場所認識パフォーマンスを実現しながら、強固な一般化能力を維持できることを示しています。
当社のオープンソースコードは、https://github.com/qizs-bit/gsprでリリースされます。

要約(オリジナル)

Place recognition is a crucial component that enables autonomous vehicles to obtain localization results in GPS-denied environments. In recent years, multimodal place recognition methods have gained increasing attention. They overcome the weaknesses of unimodal sensor systems by leveraging complementary information from different modalities. However, most existing methods explore cross-modality correlations through feature-level or descriptor-level fusion, suffering from a lack of interpretability. Conversely, the recently proposed 3D Gaussian Splatting provides a new perspective on multimodal fusion by harmonizing different modalities into an explicit scene representation. In this paper, we propose a 3D Gaussian Splatting-based multimodal place recognition network dubbed GSPR. It explicitly combines multi-view RGB images and LiDAR point clouds into a spatio-temporally unified scene representation with the proposed Multimodal Gaussian Splatting. A network composed of 3D graph convolution and transformer is designed to extract spatio-temporal features and global descriptors from the Gaussian scenes for place recognition. Extensive evaluations on three datasets demonstrate that our method can effectively leverage complementary strengths of both multi-view cameras and LiDAR, achieving SOTA place recognition performance while maintaining solid generalization ability. Our open-source code will be released at https://github.com/QiZS-BIT/GSPR.

arxiv情報

著者 Zhangshuo Qi,Junyi Ma,Jingyi Xu,Zijie Zhou,Luqi Cheng,Guangming Xiong
発行日 2025-03-06 15:32:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク