Single-Stage 3D Geometry-Preserving Depth Estimation Model Training on Dataset Mixtures with Uncalibrated Stereo Data

要約

ロボットやAR、3Dモデリングなどのアプリケーションでは、1枚のRGB画像からシーンの形状を推定できるシングルビュー奥行き推定(SVDE)が注目されている。近年、SVDE手法の精度は、学習データの多様性と量に大きく依存することが実証されている。しかし、奥行きキャプチャや3D再構成によって得られるRGB-Dデータセットは一般的に小さく、合成データセットは十分に写実的ではなく、これらのデータセットはいずれも多様性に欠けています。このような大規模かつ多様なデータは、ウェブ上のステレオ画像やステレオ動画から得ることができる。一般に、ステレオデータは較正されていないため、未知のシフトまで視差があり(幾何学的に不完全なデータ)、ステレオで学習したSVDE法では3次元形状を復元できない。最近、ステレオで学習したSVDE法で得られた歪んだ点群は、幾何学的に完全なデータで別途学習した点群モジュール(PCM)を追加することで補正できることが示された。これに対し、我々はGP$^{2}$(General-Purpose and Geometry-Preserving)学習スキームを提案し、従来のSVDEモデルが後処理なしに正しいシフトを自ら学習し、形状保存設定においてもステレオデータの使用から利益を得ることができることを明らかにする。異なるデータセット混合での実験を通じて、GP$^{2}$で学習したモデルがPCMに依存する手法を精度・速度ともに上回ることを証明し、汎用的なジオメトリ保存SVDEにおける最先端の結果を報告する。さらに、SVDEモデルは、幾何学的に完全なデータが訓練セットのごく一部を構成する場合でも、幾何学的に正しい深さを予測するように学習できることを示す。

要約(オリジナル)

Nowadays, robotics, AR, and 3D modeling applications attract considerable attention to single-view depth estimation (SVDE) as it allows estimating scene geometry from a single RGB image. Recent works have demonstrated that the accuracy of an SVDE method hugely depends on the diversity and volume of the training data. However, RGB-D datasets obtained via depth capturing or 3D reconstruction are typically small, synthetic datasets are not photorealistic enough, and all these datasets lack diversity. The large-scale and diverse data can be sourced from stereo images or stereo videos from the web. Typically being uncalibrated, stereo data provides disparities up to unknown shift (geometrically incomplete data), so stereo-trained SVDE methods cannot recover 3D geometry. It was recently shown that the distorted point clouds obtained with a stereo-trained SVDE method can be corrected with additional point cloud modules (PCM) separately trained on the geometrically complete data. On the contrary, we propose GP$^{2}$, General-Purpose and Geometry-Preserving training scheme, and show that conventional SVDE models can learn correct shifts themselves without any post-processing, benefiting from using stereo data even in the geometry-preserving setting. Through experiments on different dataset mixtures, we prove that GP$^{2}$-trained models outperform methods relying on PCM in both accuracy and speed, and report the state-of-the-art results in the general-purpose geometry-preserving SVDE. Moreover, we show that SVDE models can learn to predict geometrically correct depth even when geometrically complete data comprises the minor part of the training set.

arxiv情報

著者 Nikolay Patakin,Mikhail Romanov,Anna Vorontsova,Mikhail Artemyev,Anton Konushin
発行日 2023-06-05 13:49:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク