ClusVPR: Efficient Visual Place Recognition with Clustering-based Weighted Transformer

要約

視覚的場所認識 (VPR) は、ロボット ナビゲーションや自動運転車など、幅広い用途に使用できる非常に困難なタスクです。
VPR は、重複領域の存在と、複雑なシーン内の小さなオブジェクトへの注意の欠如により、認識の逸脱を引き起こすため、特に困難です。
この論文では、重複領域内の冗長情報と小さなオブジェクトの表現という特定の問題に取り組む新しいアプローチである ClusVPR を紹介します。
特徴マップの生成に畳み込みニューラル ネットワーク (CNN) に依存する既存の方法とは異なり、ClusVPR はクラスタリングベースの加重変換ネットワーク (CWTNet) と呼ばれる独自のパラダイムを導入しています。
CWTNet は、クラスタリング ベースの重み付けされた特徴マップの力を活用し、グローバルな依存関係を統合して、大規模な VPR 問題で発生する視覚的な逸脱に効果的に対処します。
また、パラメーターの数を大幅に削減し、モデルの効率を向上させる最適化された VLAD (OptLAD) レイヤーも導入します。
このレイヤーは、スケールごとの画像パッチから得られる情報を集約するために特別に設計されています。
さらに、私たちのピラミッド自己監視型戦略は、画像全体ではなく、スケールごとの画像パッチから代表的で多様な情報を抽出することに重点を置いています。これは、VPR で代表的で多様な情報をキャプチャするために重要です。
4 つの VPR データセットに対する広範な実験により、既存のモデルと比較して、複雑さが軽減されたモデルの優れたパフォーマンスが示されました。

要約(オリジナル)

Visual place recognition (VPR) is a highly challenging task that has a wide range of applications, including robot navigation and self-driving vehicles. VPR is particularly difficult due to the presence of duplicate regions and the lack of attention to small objects in complex scenes, resulting in recognition deviations. In this paper, we present ClusVPR, a novel approach that tackles the specific issues of redundant information in duplicate regions and representations of small objects. Different from existing methods that rely on Convolutional Neural Networks (CNNs) for feature map generation, ClusVPR introduces a unique paradigm called Clustering-based Weighted Transformer Network (CWTNet). CWTNet leverages the power of clustering-based weighted feature maps and integrates global dependencies to effectively address visual deviations encountered in large-scale VPR problems. We also introduce the optimized-VLAD (OptLAD) layer that significantly reduces the number of parameters and enhances model efficiency. This layer is specifically designed to aggregate the information obtained from scale-wise image patches. Additionally, our pyramid self-supervised strategy focuses on extracting representative and diverse information from scale-wise image patches instead of entire images, which is crucial for capturing representative and diverse information in VPR. Extensive experiments on four VPR datasets show our model’s superior performance compared to existing models while being less complex.

arxiv情報

著者 Yifan Xu,Pourya Shamsolmoali,Jie Yang
発行日 2023-10-12 14:18:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク