DeepMLE: A Robust Deep Maximum Likelihood Estimator for Two-view Structure from Motion

要約

Two-view structure from motion (SfM) は、3D 再構成とビジュアル SLAM (vSLAM) の基礎です。
多くの既存のエンドツーエンドの学習ベースの方法では、通常、ブルート回帰問題として定式化されています。
ただし、従来のジオメトリ モデルを十分に活用していないため、目に見えない環境ではモデルが堅牢ではありません。
エンドツーエンドの 2 ビュー SfM ネットワークの一般化機能と堅牢性を向上させるために、2 ビュー SfM 問題を最尤推定 (MLE) として定式化し、DeepMLE として示される提案されたフレームワークで解決します。
まず、自我の動きによって決定される 2D 画像の一致の視覚的類似性を表すために、深いマルチスケール相関マップを使用することを提案します。
さらに、フレームワークの堅牢性を高めるために、照明の変化、画像のノイズ、および移動するオブジェクトによって引き起こされる不確実性を考慮したガウスおよび均一混合分布として、2D 画像一致の相関の尤度関数を定式化します。
一方、不確実性予測モジュールは、ピクセル単位の分布パラメーターを予測するために提示されます。
最後に、相関の尤度関数を最大化するために、勾配のような情報を使用して深度と相対的なカメラの姿勢を繰り返し調整します。
いくつかのデータセットに関する広範な実験結果は、私たちの方法が精度と一般化機能において最先端のエンドツーエンドの 2 ビュー SfM アプローチよりも大幅に優れていることを証明しています。

要約(オリジナル)

Two-view structure from motion (SfM) is the cornerstone of 3D reconstruction and visual SLAM (vSLAM). Many existing end-to-end learning-based methods usually formulate it as a brute regression problem. However, the inadequate utilization of traditional geometry model makes the model not robust in unseen environments. To improve the generalization capability and robustness of end-to-end two-view SfM network, we formulate the two-view SfM problem as a maximum likelihood estimation (MLE) and solve it with the proposed framework, denoted as DeepMLE. First, we propose to take the deep multi-scale correlation maps to depict the visual similarities of 2D image matches decided by ego-motion. In addition, in order to increase the robustness of our framework, we formulate the likelihood function of the correlations of 2D image matches as a Gaussian and Uniform mixture distribution which takes the uncertainty caused by illumination changes, image noise and moving objects into account. Meanwhile, an uncertainty prediction module is presented to predict the pixel-wise distribution parameters. Finally, we iteratively refine the depth and relative camera pose using the gradient-like information to maximize the likelihood function of the correlations. Extensive experimental results on several datasets prove that our method significantly outperforms the state-of-the-art end-to-end two-view SfM approaches in accuracy and generalization capability.

arxiv情報

著者 Yuxi Xiao,Li Li,Xiaodi Li,Jian Yao
発行日 2022-10-11 15:07:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク