要約
視覚的な場所認識では、さまざまな環境条件や視点の下で場所の画像を正確に識別して照合することが依然として大きな課題です。
このペーパーでは、普遍的な場所固有の属性を取得するように設計された一連のグローバル クエリを学習する Bag-of-Queries (BoQ) と呼ばれる新しい手法を紹介します。
セルフ アテンションを採用し、入力特徴から直接クエリを生成する既存の手法とは異なり、BoQ は個別の学習可能なグローバル クエリを採用し、クロス アテンションを通じて入力特徴を調査し、一貫した情報集約を保証します。
さらに、私たちの技術は解釈可能な注意メカニズムを提供し、CNN と Vision Transformer の両方のバックボーンと統合します。
BoQ のパフォーマンスは、14 の大規模ベンチマークでの広範な実験を通じて実証されています。
NetVLAD、MixVPR、EigenPlaces などの現在の最先端技術を常に上回ります。
さらに、BoQ はグローバルな取得技術 (1 段階) として、Patch-NetVLAD、TransVPR、R2Former などの 2 段階の取得方法を上回り、桁違いに高速かつ効率的です。
コードとモデルの重みは、https://github.com/amaralibey/Bag-of-Queries で公開されています。
要約(オリジナル)
In visual place recognition, accurately identifying and matching images of locations under varying environmental conditions and viewpoints remains a significant challenge. In this paper, we introduce a new technique, called Bag-of-Queries (BoQ), which learns a set of global queries designed to capture universal place-specific attributes. Unlike existing methods that employ self-attention and generate the queries directly from the input features, BoQ employs distinct learnable global queries, which probe the input features via cross-attention, ensuring consistent information aggregation. In addition, our technique provides an interpretable attention mechanism and integrates with both CNN and Vision Transformer backbones. The performance of BoQ is demonstrated through extensive experiments on 14 large-scale benchmarks. It consistently outperforms current state-of-the-art techniques including NetVLAD, MixVPR and EigenPlaces. Moreover, as a global retrieval technique (one-stage), BoQ surpasses two-stage retrieval methods, such as Patch-NetVLAD, TransVPR and R2Former, all while being orders of magnitude faster and more efficient. The code and model weights are publicly available at https://github.com/amaralibey/Bag-of-Queries.
arxiv情報
著者 | Amar Ali-Bey,Brahim Chaib-draa,Philippe Giguère |
発行日 | 2024-11-13 15:48:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google