LIP-Loc: LiDAR Image Pretraining for Cross-Modal Localization

要約

自動運転アプリケーションにとって重要な LiDAR マップにおける全地球的な視覚的位置特定は、クロスモーダルの異質性のギャップを埋めるという困難な問題のため、ほとんど解明されていないままです。
人気のマルチモーダル学習アプローチである Contrastive Language-Image Pre-Training (CLIP) は、テキストと画像のマルチモーダル ドメインに適用することにより、バッチ構築技術を使用したコントラスト対称損失を普及させました。
このアプローチを、クロスモーダル位置特定のタスクにおける 2D 画像および 3D LiDAR ポイントのドメインに適用します。
私たちの方法は次のように説明されます。 画像エンコーダーと LiDAR エンコーダーを共同でトレーニングしてマルチモーダルを学習することにより、バッチ全体にわたる N X N の可能なペアの間で何が正しい一致かを予測するために、N (画像、LiDAR) ペアのバッチが構築されます。
埋め込みスペース。
このようにして、N 個の正のペア間のコサイン類似性は最大化され、残りの負のペア間のコサイン類似性は最小化されます。
最後に、取得された類似性スコアに基づいて、対称クロスエントロピー損失が最適化されます。
私たちの知る限り、これは画像と LiDAR データのクロスモーダル設定にバッチ損失アプローチを適用し、視覚的ローカリゼーション設定でゼロショット転送を示した最初の作品です。
当社は、KITTI や KITTI-360 データセットなどの標準的な自動運転データセットに対して広範な分析を行っています。
より有益な魚眼画像を使用する最先端のアプローチとは対照的に、私たちの方法は、透視画像のみを使用して、KITTI-360 データセットでの最先端の再現率 @1 精度を 22.4% 上回ります。
さらに、この優れたパフォーマンスは、複雑なアーキテクチャに頼ることなく実現されます。
さらに、モデルのゼロショット機能を実証し、トレーニングもせずに SOTA を 8% 上回りました。
さらに、KITTI データセット上でクロスモーダル位置特定の最初のベンチマークを確立します。

要約(オリジナル)

Global visual localization in LiDAR-maps, crucial for autonomous driving applications, remains largely unexplored due to the challenging issue of bridging the cross-modal heterogeneity gap. Popular multi-modal learning approach Contrastive Language-Image Pre-Training (CLIP) has popularized contrastive symmetric loss using batch construction technique by applying it to multi-modal domains of text and image. We apply this approach to the domains of 2D image and 3D LiDAR points on the task of cross-modal localization. Our method is explained as follows: A batch of N (image, LiDAR) pairs is constructed so as to predict what is the right match between N X N possible pairings across the batch by jointly training an image encoder and LiDAR encoder to learn a multi-modal embedding space. In this way, the cosine similarity between N positive pairings is maximized, whereas that between the remaining negative pairings is minimized. Finally, over the obtained similarity scores, a symmetric cross-entropy loss is optimized. To the best of our knowledge, this is the first work to apply batched loss approach to a cross-modal setting of image & LiDAR data and also to show Zero-shot transfer in a visual localization setting. We conduct extensive analyses on standard autonomous driving datasets such as KITTI and KITTI-360 datasets. Our method outperforms state-of-the-art recall@1 accuracy on the KITTI-360 dataset by 22.4%, using only perspective images, in contrast to the state-of-the-art approach, which utilizes the more informative fisheye images. Additionally, this superior performance is achieved without resorting to complex architectures. Moreover, we demonstrate the zero-shot capabilities of our model and we beat SOTA by 8% without even training on it. Furthermore, we establish the first benchmark for cross-modal localization on the KITTI dataset.

arxiv情報

著者 Sai Shubodh Puligilla,Mohammad Omama,Husain Zaidi,Udit Singh Parihar,Madhava Krishna
発行日 2023-12-27 17:23:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク