要約
ホモグラフィ推定はコンピュータビジョンの基本的なタスクであり,画像整列のために多視点画像から変換行列を求めることを目的としている.教師なし学習によるホモグラフィ推定は,特徴抽出と変換行列回帰のために畳み込みニューラルネットワークを学習させる.最先端のホモグラフィ手法は畳み込みニューラルネットワークに基づいているが,高度なビジョンタスクで優位性を示す変換行列に着目した研究はほとんどない.本論文では、局所特徴量に対する畳み込みニューラルネットワークと大域特徴量に対する変換モジュールを組み合わせたSwin Transformerに基づく強ベースラインモデルを提案する。さらに、特徴マップ内の一致する特徴を粗く探索するために、非局所横断層を導入する。ホモグラフィ回帰の段階では、相関量のチャンネルに注目層を採用し、相関の弱い特徴点を削除することができる。実験によると、8自由度のホモグラフィ推定において、我々の手法は最先端の手法を凌駕する性能を示すことがわかった。
要約(オリジナル)
Homography estimation is a basic computer vision task, which aims to obtain the transformation from multi-view images for image alignment. Unsupervised learning homography estimation trains a convolution neural network for feature extraction and transformation matrix regression. While the state-of-the-art homography method is based on convolution neural networks, few work focuses on transformer which shows superiority in high-level vision tasks. In this paper, we propose a strong-baseline model based on the Swin Transformer, which combines convolution neural network for local features and transformer module for global features. Moreover, a cross non-local layer is introduced to search the matched features within the feature maps coarsely.In the homography regression stage, we adopts an attention layer for the channels of correlation volume, which can drop out some weak correlation feature points. The experiment shows that in 8 Degree-of-Freedoms(DOFs) homography estimation our methods overperform the state-of-the-art method.
arxiv情報
著者 | Mingxiao Huo,Zhihao Zhang,Xianqiang Yang |
発行日 | 2022-12-06 15:00:00+00:00 |
arxivサイト | arxiv_id(pdf) |