要約
いくつかのコンピュータ ビジョン タスク (動きからの構造や視覚的位置特定など) の重要なコンポーネントであるローカル フィーチャ マッチングは、Transformer ベースの方法によって効果的に解決されています。
ただし、これらの方法は、固定された受容野を持つキーポイント間の長距離コンテキスト情報を統合するだけであるため、ネットワークが完全な画像認識を実現するために異なる受容野を持つ特徴の重要性を調整することが制約され、したがってマッチング精度が制限されます。
さらに、これらの方法は、キーポイントの位置情報を視覚記述子に統合するために従来の手作りのエンコーディング手法を利用しているため、信頼できる位置エンコーディング メッセージを抽出するネットワークの機能が制限されます。
この研究では、異なる特徴を複数の受容野と適応的に調整し、並列ネットワークを利用して信頼性の高い位置エンコーディングを実現する、新しいTransformerベースの検出器不要の方法であるReconciliatory TransformerによるFeature Matching (FMRT)を提案します。
具体的には、FMRT は、さまざまな受容野を持つ視覚記述子を抽出し、さまざまなスケールでグローバルなコンテキスト情報を統合するための Global Perception Attendant Layer (GPAL) と、重要性を測定するための Perception Weight Layer (PWL) で構成される専用の Reconciliatory Transformer (RecFormer) を提案しています。
さまざまな受容野を適応的に利用し、局所知覚フィードフォワード ネットワーク (LPFFN) により、深く集約されたマルチスケールの局所特徴表現を抽出します。
広範な実験により、FMRT が姿勢推定、視覚的位置推定、ホモグラフィー推定、画像マッチングなどの複数のベンチマークで並外れたパフォーマンスを発揮することが実証されています。
要約(オリジナル)
Local Feature Matching, an essential component of several computer vision tasks (e.g., structure from motion and visual localization), has been effectively settled by Transformer-based methods. However, these methods only integrate long-range context information among keypoints with a fixed receptive field, which constrains the network from reconciling the importance of features with different receptive fields to realize complete image perception, hence limiting the matching accuracy. In addition, these methods utilize a conventional handcrafted encoding approach to integrate the positional information of keypoints into the visual descriptors, which limits the capability of the network to extract reliable positional encoding message. In this study, we propose Feature Matching with Reconciliatory Transformer (FMRT), a novel Transformer-based detector-free method that reconciles different features with multiple receptive fields adaptively and utilizes parallel networks to realize reliable positional encoding. Specifically, FMRT proposes a dedicated Reconciliatory Transformer (RecFormer) that consists of a Global Perception Attention Layer (GPAL) to extract visual descriptors with different receptive fields and integrate global context information under various scales, Perception Weight Layer (PWL) to measure the importance of various receptive fields adaptively, and Local Perception Feed-forward Network (LPFFN) to extract deep aggregated multi-scale local feature representation. Extensive experiments demonstrate that FMRT yields extraordinary performance on multiple benchmarks, including pose estimation, visual localization, homography estimation, and image matching.
arxiv情報
著者 | Xinyu Zhang,Li Wang,Zhiqiang Jiang,Kun Dai,Tao Xie,Lei Yang,Wenhao Yu,Yang Shen,Jun Li |
発行日 | 2023-10-20 15:54:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google