LFM-3D: Learnable Feature Matching Across Wide Baselines Using 3D Signals

要約

同じオブジェクトの異なる画像間でローカライズされた対応を見つけることは、そのジオメトリを理解するために重要です。
近年、この問題は、深層学習ベースのローカル画像特徴と学習可能なマッチャーの出現により、目覚ましい進歩を遂げています。
それでも、学習可能なマッチャーは、画像ペア間に共可視性の小さな領域しか存在しない場合 (つまり、カメラのベースラインが広い場合)、パフォーマンスが低下することがよくあります。
この問題に対処するために、粗い単一ビューのジオメトリ推定方法の最近の進歩を活用します。
グラフニューラルネットワークに基づくモデルを使用する学習可能な特徴マッチングフレームワークであるLFM-3Dを提案し、ノイズの多い推定3D信号を統合して対応推定を強化することにより、その機能を強化します。
3D 信号をマッチャー モデルに統合する場合、低次元の 3D 情報を効果的に利用するには、適切な位置エンコーディングが重要であることを示します。
正規化されたオブジェクト座標と単眼深度推定値の 2 つの異なる 3D 信号を実験し、広いベースラインにわたるオブジェクト中心の画像ペアを含む大規模な (合成および実際の) データセットでこの方法を評価します。
2D のみの方法と比較して、最大 +6% の総再現率と +28% の精度で、固定再現率で特徴マッチングの大幅な改善が見られます。
さらに、結果として改善された対応関係が、2D のみのアプローチと比較して 8% 以上向上し、野生の画像ペアの相対的なポーズ精度がはるかに高くなることを示しています。

要約(オリジナル)

Finding localized correspondences across different images of the same object is crucial to understand its geometry. In recent years, this problem has seen remarkable progress with the advent of deep learning based local image features and learnable matchers. Still, learnable matchers often underperform when there exists only small regions of co-visibility between image pairs (i.e. wide camera baselines). To address this problem, we leverage recent progress in coarse single-view geometry estimation methods. We propose LFM-3D, a Learnable Feature Matching framework that uses models based on graph neural networks, and enhances their capabilities by integrating noisy, estimated 3D signals to boost correspondence estimation. When integrating 3D signals into the matcher model, we show that a suitable positional encoding is critical to effectively make use of the low-dimensional 3D information. We experiment with two different 3D signals – normalized object coordinates and monocular depth estimates – and evaluate our method on large-scale (synthetic and real) datasets containing object-centric image pairs across wide baselines. We observe strong feature matching improvements compared to 2D-only methods, with up to +6% total recall and +28% precision at fixed recall. We additionally demonstrate that the resulting improved correspondences lead to much higher relative posing accuracy for in-the-wild image pairs, with a more than 8% boost compared to the 2D-only approach.

arxiv情報

著者 Arjun Karpur,Guilherme Perrotta,Ricardo Martin-Brualla,Howard Zhou,Andre Araujo
発行日 2023-03-22 17:46:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク