Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition

要約

最近の研究では、大規模データを使用した一般的な視覚学習タスクで事前トレーニングされた視覚モデルが、広範囲の視覚認識の問題に対して有用な特徴表現を提供できることが示されています。
ただし、視覚的場所認識 (VPR) で事前トレーニングされた基礎モデルを活用する試みはほとんど行われていません。
モデルの事前トレーニングと VPR のタスク間ではトレーニングの目的とデータに本質的な違いがあるため、そのギャップを埋めて、VPR 用の事前トレーニングされたモデルの機能を完全に解放する方法は依然として対処すべき重要な問題です。
この目的を達成するために、VPR 用の事前トレーニング済みモデルのシームレスな適応を実現する新しい方法を提案します。
具体的には、場所を識別するための顕著なランドマークに焦点を当てた大域的特徴と局所的特徴の両方を取得するために、事前学習済みモデルを調整せずに軽量アダプターのみを調整する、大域的適応と局所的適応の両方を効率的に達成するハイブリッド適応手法を設計します。
さらに、効果的な適応を導くために、相互最近傍局所特徴損失を提案します。これにより、局所マッチングのために適切な密な局所特徴が生成されることが保証され、再ランキングにおける時間のかかる空間検証が回避されます。
実験結果は、私たちの方法がより少ないトレーニングデータとトレーニング時間で最先端の方法よりも優れたパフォーマンスを示し、RANSACベースの空間検証を使用した2段階VPR方法の約3%のみの取得ランタイムを使用することを示しています。
MSLS チャレンジ リーダーボードでは 1 位にランクされています (提出時)。
コードは https://github.com/Lu-Feng/SelaVPR でリリースされています。

要約(オリジナル)

Recent studies show that vision models pre-trained in generic visual learning tasks with large-scale data can provide useful feature representations for a wide range of visual perception problems. However, few attempts have been made to exploit pre-trained foundation models in visual place recognition (VPR). Due to the inherent difference in training objectives and data between the tasks of model pre-training and VPR, how to bridge the gap and fully unleash the capability of pre-trained models for VPR is still a key issue to address. To this end, we propose a novel method to realize seamless adaptation of pre-trained models for VPR. Specifically, to obtain both global and local features that focus on salient landmarks for discriminating places, we design a hybrid adaptation method to achieve both global and local adaptation efficiently, in which only lightweight adapters are tuned without adjusting the pre-trained model. Besides, to guide effective adaptation, we propose a mutual nearest neighbor local feature loss, which ensures proper dense local features are produced for local matching and avoids time-consuming spatial verification in re-ranking. Experimental results show that our method outperforms the state-of-the-art methods with less training data and training time, and uses about only 3% retrieval runtime of the two-stage VPR methods with RANSAC-based spatial verification. It ranks 1st on the MSLS challenge leaderboard (at the time of submission). The code is released at https://github.com/Lu-Feng/SelaVPR.

arxiv情報

著者 Feng Lu,Lijun Zhang,Xiangyuan Lan,Shuting Dong,Yaowei Wang,Chun Yuan
発行日 2024-03-18 12:28:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク