要約
画像間で堅牢で信頼性の高い対応関係を生成することは、さまざまなアプリケーションにとって基本的なタスクです。
グローバルとローカルの両方の粒度でコンテキストをキャプチャするために、自己適応的な方法で注意スパンを調整できる新しい注意操作を採用する、階層的注意構造に基づいて構築された Transformer ベースの検出器を使用しないマッチャーである ASpanFormer を提案します。
この目標を達成するために、最初に、各相互注意フェーズでフロー マップが回帰され、検索領域の中心が特定されます。
次に、サンプリング グリッドが中心の周りに生成されます。そのサイズは、経験的に固定として構成されるのではなく、フロー マップと共に推定されるピクセルの不確実性から適応的に計算されます。
最後に、注意スパンと呼ばれる派生領域内の 2 つの画像間で注意が計算されます。
これらの手段により、長期的な依存関係を維持できるだけでなく、マッチング タスクにおける本質的な局所性と部分的な滑らかさを補う、関連性の高いピクセル間できめ細かい注意を払うことができます。
幅広い評価ベンチマークでの最先端の精度は、当社の方法の強力なマッチング機能を検証します。
要約(オリジナル)
Generating robust and reliable correspondences across images is a fundamental task for a diversity of applications. To capture context at both global and local granularity, we propose ASpanFormer, a Transformer-based detector-free matcher that is built on hierarchical attention structure, adopting a novel attention operation which is capable of adjusting attention span in a self-adaptive manner. To achieve this goal, first, flow maps are regressed in each cross attention phase to locate the center of search region. Next, a sampling grid is generated around the center, whose size, instead of being empirically configured as fixed, is adaptively computed from a pixel uncertainty estimated along with the flow map. Finally, attention is computed across two images within derived regions, referred to as attention span. By these means, we are able to not only maintain long-range dependencies, but also enable fine-grained attention among pixels of high relevance that compensates essential locality and piece-wise smoothness in matching tasks. State-of-the-art accuracy on a wide range of evaluation benchmarks validates the strong matching capability of our method.
arxiv情報
著者 | Hongkai Chen,Zixin Luo,Lei Zhou,Yurun Tian,Mingmin Zhen,Tian Fang,David Mckinnon,Yanghai Tsin,Long Quan |
発行日 | 2022-08-30 12:21:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google