Optimal Transport Aggregation for Visual Place Recognition

要約

Visual Place Recognition (VPR) のタスクは、視覚的な手がかりのみに基づいて、さまざまな場所からの画像の広範なデータベースからの参照に対してクエリ画像を照合することを目的としています。
最先端のパイプラインは、各画像のグローバル記述子を形成するために、深いバックボーンから抽出された特徴の集約に焦点を当てています。
これに関連して、NetVLAD のクラスターへのローカル機能のソフト割り当てを最適なトランスポート問題として再定式化する SALAD (ローカル集約記述子用のシンクホーン アルゴリズム) を紹介します。
SALAD では、特徴とクラスター、およびクラスターと特徴の両方の関係を考慮し、情報がないとみなされる特徴を選択的に破棄するように設計された「ゴミ箱」クラスターも導入し、全体的な記述子の品質を向上させます。
さらに、バックボーンとして DINOv2 を活用して微調整することで、局所特徴の記述力が強化され、必要なトレーニング時間が大幅に短縮されます。
その結果、当社の 1 段階手法は、公開 VPR データセットの 1 段階ベースラインを上回っただけでなく、大幅に高いコストで再ランキングを追加する 2 段階手法も上回りました。
コードとモデルは https://github.com/serizba/salad で入手できます。

要約(オリジナル)

The task of Visual Place Recognition (VPR) aims to match a query image against references from an extensive database of images from different places, relying solely on visual cues. State-of-the-art pipelines focus on the aggregation of features extracted from a deep backbone, in order to form a global descriptor for each image. In this context, we introduce SALAD (Sinkhorn Algorithm for Locally Aggregated Descriptors), which reformulates NetVLAD’s soft-assignment of local features to clusters as an optimal transport problem. In SALAD, we consider both feature-to-cluster and cluster-to-feature relations and we also introduce a ‘dustbin’ cluster, designed to selectively discard features deemed non-informative, enhancing the overall descriptor quality. Additionally, we leverage and fine-tune DINOv2 as a backbone, which provides enhanced description power for the local features, and dramatically reduces the required training time. As a result, our single-stage method not only surpasses single-stage baselines in public VPR datasets, but also surpasses two-stage methods that add a re-ranking with significantly higher cost. Code and models are available at https://github.com/serizba/salad.

arxiv情報

著者 Sergio Izquierdo,Javier Civera
発行日 2023-11-27 15:46:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク