FAR: Flexible, Accurate and Robust 6DoF Relative Camera Pose Estimation

要約

画像間の相対的なカメラ姿勢の推定は、コンピュータビジョンにおける中心的な問題である。対応関係を見つけ、基本行列を解く方法は、ほとんどの場合において高い精度を提供する。逆に、ニューラルネットワークを用いて直接ポーズを予測する方法は、限られたオーバーラップに対してよりロバストであり、絶対的な並進スケールを推測することができるが、精度は低下する。私たちのアプローチは、正確でロバストでありながら、並進スケールを正確に推測することができます。我々のモデルの中心には、(1)解決されたポーズ推定と学習されたポーズ推定の間のバランスを学習し、(2)ソルバーを導くための事前情報を提供するトランスフォーマーがある。包括的な解析により、我々の設計の選択を支持し、我々の手法が様々な特徴抽出器や対応推定器に柔軟に適応することを実証し、Matterport3D、InteriorNet、StreetLearn、Map-free Relocalizationにおける6DoFポーズ推定において最先端の性能を示す。

要約(オリジナル)

Estimating relative camera poses between images has been a central problem in computer vision. Methods that find correspondences and solve for the fundamental matrix offer high precision in most cases. Conversely, methods predicting pose directly using neural networks are more robust to limited overlap and can infer absolute translation scale, but at the expense of reduced precision. We show how to combine the best of both methods; our approach yields results that are both precise and robust, while also accurately inferring translation scales. At the heart of our model lies a Transformer that (1) learns to balance between solved and learned pose estimations, and (2) provides a prior to guide a solver. A comprehensive analysis supports our design choices and demonstrates that our method adapts flexibly to various feature extractors and correspondence estimators, showing state-of-the-art performance in 6DoF pose estimation on Matterport3D, InteriorNet, StreetLearn, and Map-free Relocalization.

arxiv情報

著者 Chris Rockwell,Nilesh Kulkarni,Linyi Jin,Jeong Joon Park,Justin Johnson,David F. Fouhey
発行日 2024-03-05 18:59:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク