CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition

要約

過去 10 年間、視覚的場所認識 (VPR) のほとんどの手法では、ニューラル ネットワークを使用して特徴表現を生成してきました。
これらのネットワークは通常、この画像自体のみを使用して場所画像のグローバル表現を生成し、画像間の変動 (視点や照明など) を無視するため、困難なシーンでの堅牢性が制限されます。
この論文では、CricaVPR と呼ばれる、VPR の画像間相関を認識した堅牢なグローバル表現方法を提案します。
私たちの方法では、セルフ アテンション メカニズムを使用して、バッチ内の複数の画像を関連付けます。
これらの画像は、同じ場所で異なる条件や視点で撮影したり、異なる場所から撮影したりすることもできます。
したがって、私たちの方法では、画像間の変化を表現学習をガイドする手がかりとして利用することができ、より堅牢な特徴が生成されることが保証されます。
堅牢性をさらに促進するために、事前トレーニングされた視覚基礎モデルを VPR タスクに適応させるマルチスケール畳み込み強化適応法を提案します。これにより、マルチスケールのローカル情報が導入され、画像間相関を意識した表現がさらに強化されます。
実験結果は、私たちの方法が、トレーニング時間を大幅に短縮しながら、最先端の方法を大幅に上回っていることを示しています。
私たちの方法は、512 次元のグローバル フィーチャを使用して、Pitts30k で 94.5% の R@1 を達成します。
コードは https://github.com/Lu-Feng/CricaVPR でリリースされています。

要約(オリジナル)

Over the past decade, most methods in visual place recognition (VPR) have used neural networks to produce feature representations. These networks typically produce a global representation of a place image using only this image itself and neglect the cross-image variations (e.g. viewpoint and illumination), which limits their robustness in challenging scenes. In this paper, we propose a robust global representation method with cross-image correlation awareness for VPR, named CricaVPR. Our method uses the self-attention mechanism to correlate multiple images within a batch. These images can be taken in the same place with different conditions or viewpoints, or even captured from different places. Therefore, our method can utilize the cross-image variations as a cue to guide the representation learning, which ensures more robust features are produced. To further facilitate the robustness, we propose a multi-scale convolution-enhanced adaptation method to adapt pre-trained visual foundation models to the VPR task, which introduces the multi-scale local information to further enhance the cross-image correlation-aware representation. Experimental results show that our method outperforms state-of-the-art methods by a large margin with significantly less training time. Our method achieves 94.5% R@1 on Pitts30k using 512-dim global features. The code is released at https://github.com/Lu-Feng/CricaVPR.

arxiv情報

著者 Feng Lu,Xiangyuan Lan,Lijun Zhang,Dongmei Jiang,Yaowei Wang,Chun Yuan
発行日 2024-02-29 15:05:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク