Learning Sequence Descriptor based on Spatio-Temporal Attention for Visual Place Recognition

要約

Visual Place Recognition (VPR) は、クエリ フレームと同じ場所にあるジオタグ付きデータベースからフレームを取得することを目的としています。
知覚的なエイリアシングシナリオにおける VPR の堅牢性を向上させるために、シーケンスベースの VPR 方法が提案されています。
これらの方法は、フレーム シーケンス間のマッチング、または直接取得するためのシーケンス記述子の抽出に基づいています。
ただし、前者は通常、一定速度の仮定に基づいていますが、実際にはこれを維持するのは難しく、計算コストが高くつき、シーケンスの長さの影響を受けます。
後者はこれらの問題を克服するが、既存のシーケンス記述子は時間情報の相互作用を持たず、複数フレームの特徴のみを集約して構成されるため、時空間弁別性のある記述子を得ることができない。
本稿では、時空間情報を効果的に組み込むシーケンス記述子を提案する。
具体的には、同じフレーム内の空間的注意を利用して空間的特徴パターンを学習し、異なるフレームの対応する局所領域での注意を利用して、時間の経過に伴う特徴の持続または変化を学習します。
スライディング ウィンドウを使用して注意の時間的範囲を制御し、相対位置エンコーディングを使用して異なる特徴間の連続的な関係を構築します。
これにより、記述子は一連のフレーム内の固有のダイナミクスをキャプチャできるようになります。
困難なベンチマーク データセットに対する包括的な実験により、提案されたアプローチが最近の最先端の方法よりも優れたパフォーマンスを発揮することが示されました。

要約(オリジナル)

Visual Place Recognition (VPR) aims to retrieve frames from a geotagged database that are located at the same place as the query frame. To improve the robustness of VPR in perceptually aliasing scenarios, sequence-based VPR methods are proposed. These methods are either based on matching between frame sequences or extracting sequence descriptors for direct retrieval. However, the former is usually based on the assumption of constant velocity, which is difficult to hold in practice, and is computationally expensive and subject to sequence length. Although the latter overcomes these problems, existing sequence descriptors are constructed by aggregating features of multiple frames only, without interaction on temporal information, and thus cannot obtain descriptors with spatio-temporal discrimination. In this paper, we propose a sequence descriptor that effectively incorporates spatio-temporal information. Specifically, spatial attention within the same frame is utilized to learn spatial feature patterns, while attention in corresponding local regions of different frames is utilized to learn the persistence or change of features over time. We use a sliding window to control the temporal range of attention and use relative position encoding to construct sequential relationships between different features. This allows our descriptors to capture the intrinsic dynamics in a sequence of frames. Comprehensive experiments on challenging benchmark datasets show that the proposed approach outperforms recent state-of-the-art methods.

arxiv情報

著者 Fenglin Zhang,Junqiao Zhao,Yingfeng Cai,Gengxuan Tian,Wenjie Mu,Chen Ye
発行日 2023-07-26 12:58:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク