要約
画像間の対応関係を見つけることは、多くのビジュアルアプリケーションにおいて重要なタスクである。最近の最先端の手法は、粗いものから細かいものへと設計されたエンドツーエンドの学習ベースのアーキテクチャに焦点を合わせている。これらの手法は、ロバストな表現を学習するために、非常に深いCNNやマルチブロック変換器を用いるが、高い計算能力を必要とする。また、これらの手法は画像内の物体や形状を推論することなく特徴を学習するため、解釈可能性に欠ける。本論文では、効率的でロバストかつ解釈可能な画像マッチングのためのアーキテクチャを提案する。具体的には、画像中の同じ空間構造をトピックに大別し、各トピック内の特徴を補強して正確なマッチングを行うTopicFMと呼ばれる新しい特徴マッチングモジュールを導入する。トピックを推論するために、まずトピックのグローバルな埋め込みを学習し、次に潜在変数モデルを用いて画像構造を検出し、トピックに割り当てる。本手法では、計算量を削減するために、視認性の良い領域でのみ照合を行うことができる。屋外と屋内の両方のデータセットで広範な実験を行い、本手法がマッチング性能と計算効率の面で最近の手法を上回ることを示す。コードは https://github.com/TruongKhang/TopicFM で公開されている。
要約(オリジナル)
Finding correspondences across images is an important task in many visual applications. Recent state-of-the-art methods focus on end-to-end learning-based architectures designed in a coarse-to-fine manner. They use a very deep CNN or multi-block Transformer to learn robust representation, which requires high computation power. Moreover, these methods learn features without reasoning about objects, shapes inside images, thus lacks of interpretability. In this paper, we propose an architecture for image matching which is efficient, robust, and interpretable. More specifically, we introduce a novel feature matching module called TopicFM which can roughly organize same spatial structure across images into a topic and then augment the features inside each topic for accurate matching. To infer topics, we first learn global embedding of topics and then use a latent-variable model to detect-then-assign the image structures into topics. Our method can only perform matching in co-visibility regions to reduce computations. Extensive experiments in both outdoor and indoor datasets show that our method outperforms the recent methods in terms of matching performance and computational efficiency. The code is available at https://github.com/TruongKhang/TopicFM.
arxiv情報
著者 | Khang Truong Giang,Soohwan Song,Sungho Jo |
発行日 | 2022-07-01 10:39:14+00:00 |
arxivサイト | arxiv_id(pdf) |