ETO:Efficient Transformer-based Local Feature Matching by Organizing Multiple Homography Hypotheses

要約

局所特徴マッチングの学習効率の問題に取り組みます。
最近の進歩により、純粋に CNN ベースのアプローチとトランスフォーマー ベースのアプローチが誕生し、それぞれに深層学習技術が強化されています。
CNN ベースの方法は多くの場合、マッチング速度に優れていますが、トランスフォーマー ベースの方法はより正確なマッチングを提供する傾向があります。
局所特徴マッチングのための効率的なトランスベースのネットワーク アーキテクチャを提案します。
この手法は、現実世界における連続的な対応を近似するための複数のホモグラフィー仮説の構築と、改良を加速するための一方向のクロスアテンションに基づいて構築されています。
YFCC100M データセットでは、マッチング精度は最先端のトランスベース アーキテクチャである LoFTR と競合し、推論速度は 4 倍に向上し、CNN ベースの手法をも上回ります。
Mega Depth、ScanNet、HPatches などの他のオープン データセットに対する包括的な評価により、この手法の有効性が実証され、幅広い下流アプリケーションを大幅に強化する可能性が強調されています。

要約(オリジナル)

We tackle the efficiency problem of learning local feature matching. Recent advancements have given rise to purely CNN-based and transformer-based approaches, each augmented with deep learning techniques. While CNN-based methods often excel in matching speed, transformer-based methods tend to provide more accurate matches. We propose an efficient transformer-based network architecture for local feature matching. This technique is built on constructing multiple homography hypotheses to approximate the continuous correspondence in the real world and uni-directional cross-attention to accelerate the refinement. On the YFCC100M dataset, our matching accuracy is competitive with LoFTR, a state-of-the-art transformer-based architecture, while the inference speed is boosted to 4 times, even outperforming the CNN-based methods. Comprehensive evaluations on other open datasets such as Megadepth, ScanNet, and HPatches demonstrate our method’s efficacy, highlighting its potential to significantly enhance a wide array of downstream applications.

arxiv情報

著者 Junjie Ni,Guofeng Zhang,Guanglin Li,Yijin Li,Xinyang Liu,Zhaoyang Huang,Hujun Bao
発行日 2025-01-06 16:19:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク