End2End Multi-View Feature Matching with Differentiable Pose Optimization

要約

誤った特徴一致は、後続のカメラ姿勢推定に深刻な影響を及ぼし、多くの場合、外れ値を除去するために RANSAC などの時間のかかる追加の手段が必要になります。
私たちの手法は、特徴のマッチングと姿勢の最適化を組み合わせて対処することで、この課題に取り組みます。
この目的を達成するために、信頼度の重みとともに画像の対応を予測するグラフ アテンション ネットワークを提案します。
結果として得られる一致は、微分可能な姿勢推定における重み付けされた制約として機能します。
姿勢最適化による勾配を使用した特徴マッチングのトレーニングにより、外れ値の重み付けを自然に軽減することが学習され、ScanNet では SuperGlue と比較して画像ペアの姿勢推定が 6.7% 向上します。
同時に、姿勢推定時間が 50% 以上短縮され、RANSAC の反復が不要になります。
さらに、グラフを複数のフレームにまたがって複数のビューからの情報を統合し、一致を一度に予測します。
マルチビュー マッチングとエンドツーエンド トレーニングを組み合わせることで、Matterport3D の姿勢推定メトリクスが SuperGlue と比較して 18.5% 向上しました。

要約(オリジナル)

Erroneous feature matches have severe impact on subsequent camera pose estimation and often require additional, time-costly measures, like RANSAC, for outlier rejection. Our method tackles this challenge by addressing feature matching and pose optimization jointly. To this end, we propose a graph attention network to predict image correspondences along with confidence weights. The resulting matches serve as weighted constraints in a differentiable pose estimation. Training feature matching with gradients from pose optimization naturally learns to down-weight outliers and boosts pose estimation on image pairs compared to SuperGlue by 6.7% on ScanNet. At the same time, it reduces the pose estimation time by over 50% and renders RANSAC iterations unnecessary. Moreover, we integrate information from multiple views by spanning the graph across multiple frames to predict the matches all at once. Multi-view matching combined with end-to-end training improves the pose estimation metrics on Matterport3D by 18.5% compared to SuperGlue.

arxiv情報

著者 Barbara Roessle,Matthias Nießner
発行日 2023-09-11 10:06:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク