DepthP+P: Metric Accurate Monocular Depth Estimation using Planar and Parallax

要約

現在の自己教師付き単眼式奥行き推定手法は,カメラの動きを表す剛体運動の推定に基づくものがほとんどである.これらの手法では,よく知られたスケールアンビギュイティの問題が予測に影響を及ぼしている.我々は、伝統的な平面視差のパラダイムに従うことで、メトリックスケールでの出力推定を学習する手法であるDepthP+Pを提案する。まず、カメラの動きに含まれる回転成分の影響を除去する共通の基底面を用いて、2つのフレームを位置合わせする。2つのニューラルネットワークを用いて、奥行きとカメラ移動量を予測する。これは、回転と一緒に予測するよりも、単独で予測する方が簡単である。カメラの高さが既知であると仮定することで、3次元点の誘導2次元画像運動を計算し、自己教師付き単眼アプローチで目標画像の再構成に利用することができます。KITTI運転データセットで実験を行い、カメラの並進を予測するだけでよい平面視差アプローチが、6DoFカメラ運動の推定に依存する現在の手法に代わる、計量的精度の高い手法となり得ることを示す。

要約(オリジナル)

Current self-supervised monocular depth estimation methods are mostly based on estimating a rigid-body motion representing camera motion. These methods suffer from the well-known scale ambiguity problem in their predictions. We propose DepthP+P, a method that learns to estimate outputs in metric scale by following the traditional planar parallax paradigm. We first align the two frames using a common ground plane which removes the effect of the rotation component in the camera motion. With two neural networks, we predict the depth and the camera translation, which is easier to predict alone compared to predicting it together with rotation. By assuming a known camera height, we can then calculate the induced 2D image motion of a 3D point and use it for reconstructing the target image in a self-supervised monocular approach. We perform experiments on the KITTI driving dataset and show that the planar parallax approach, which only needs to predict camera translation, can be a metrically accurate alternative to the current methods that rely on estimating 6DoF camera motion.

arxiv情報

著者 Sadra Safadoust,Fatma Güney
発行日 2023-01-05 14:53:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク