PlaceFormer: Transformer-based Visual Place Recognition using Multi-Scale Patch Selection and Fusion

要約

視覚的な場所認識は、コンピューター ビジョン、自律ロボット工学および車両の分野における困難なタスクであり、視覚入力から場所や場所を識別することを目的としています。
視覚的な場所認識における現代の方法では、畳み込みニューラル ネットワークが採用され、画像内のすべての領域が場所認識タスクに利用されます。
ただし、画像内に動的要素や気が散る要素が存在すると、場所認識プロセスの有効性に影響を与える可能性があります。
したがって、認識を向上させるために、画像のタスクに関連する領域に焦点を当てることは意味があります。
この論文では、視覚的な場所認識のための新しいトランスフォーマーベースのアプローチである PlaceFormer を紹介します。
PlaceFormer は、トランスフォーマーからのパッチ トークンを使用してグローバル画像記述子を作成し、その後、画像の取得に使用します。
取得した画像を再ランク付けするために、PlaceFormer はトランスフォーマーからのパッチ トークンをマージしてマルチスケール パッチを形成します。
トランスフォーマーのセルフ アテンション メカニズムを利用して、画像内のタスク関連領域に対応するパッチを選択します。
これらの選択されたパッチは幾何学的検証を受け、さまざまなパッチ サイズにわたる類似性スコアが生成されます。
その後、各パッチ サイズからの空間スコアが融合されて、最終的な類似性スコアが生成されます。
このスコアは、グローバル画像記述子を使用して最初に取得された画像を再ランク付けするために使用されます。
ベンチマーク データセットに対する広範な実験により、PlaceFormer が精度と計算効率の点でいくつかの最先端の手法を上回り、必要な時間とメモリが少ないことが実証されました。

要約(オリジナル)

Visual place recognition is a challenging task in the field of computer vision, and autonomous robotics and vehicles, which aims to identify a location or a place from visual inputs. Contemporary methods in visual place recognition employ convolutional neural networks and utilize every region within the image for the place recognition task. However, the presence of dynamic and distracting elements in the image may impact the effectiveness of the place recognition process. Therefore, it is meaningful to focus on task-relevant regions of the image for improved recognition. In this paper, we present PlaceFormer, a novel transformer-based approach for visual place recognition. PlaceFormer employs patch tokens from the transformer to create global image descriptors, which are then used for image retrieval. To re-rank the retrieved images, PlaceFormer merges the patch tokens from the transformer to form multi-scale patches. Utilizing the transformer’s self-attention mechanism, it selects patches that correspond to task-relevant areas in an image. These selected patches undergo geometric verification, generating similarity scores across different patch sizes. Subsequently, spatial scores from each patch size are fused to produce a final similarity score. This score is then used to re-rank the images initially retrieved using global image descriptors. Extensive experiments on benchmark datasets demonstrate that PlaceFormer outperforms several state-of-the-art methods in terms of accuracy and computational efficiency, requiring less time and memory.

arxiv情報

著者 Shyam Sundar Kannan,Byung-Cheol Min
発行日 2024-05-27 22:18:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク