Regressing Transformers for Data-efficient Visual Place Recognition

要約

視覚的な場所認識は、コンピュータ ビジョン、特に位置特定およびナビゲーション システムにとって重要なタスクです。
既存の方法は、多くの場合、対比学習に依存しています。画像記述子は、潜在空間内で類似した画像の距離が小さく、異なる画像の距離が大きくなるようにトレーニングされます。
ただし、このアプローチでは、特にバイナリ ペアごとのラベルを使用してトレーニングする場合、および複雑な再ランキング戦略が必要な場合、正確な距離ベースの画像類似性表現を確保するのが困難です。
この研究では、カメラの視野の重なりを学習のための類似性のグラウンドトゥルースとして使用し、場所認識を回帰問題として枠組み化することで、新たな視点を導入しています。
このアプローチは、画像記述子を最適化して段階的類似性ラベルと直接一致させることで、コストのかかる再ランキングを行わずにランキング機能を強化し、データ効率の高いトレーニングと複数のベンチマーク データセットにわたる強力な一般化を提供します。

要約(オリジナル)

Visual place recognition is a critical task in computer vision, especially for localization and navigation systems. Existing methods often rely on contrastive learning: image descriptors are trained to have small distance for similar images and larger distance for dissimilar ones in a latent space. However, this approach struggles to ensure accurate distance-based image similarity representation, particularly when training with binary pairwise labels, and complex re-ranking strategies are required. This work introduces a fresh perspective by framing place recognition as a regression problem, using camera field-of-view overlap as similarity ground truth for learning. By optimizing image descriptors to align directly with graded similarity labels, this approach enhances ranking capabilities without expensive re-ranking, offering data-efficient training and strong generalization across several benchmark datasets.

arxiv情報

著者 María Leyva-Vallina,Nicola Strisciuglio,Nicolai Petkov
発行日 2024-01-29 17:04:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク