Robust Geometry-Preserving Depth Estimation Using Differentiable Rendering


この研究では、単眼の奥行き推定から 3D シーン構造を復元するという課題に取り組みます。
ただし、このような混合データセットのトレーニングでは、未知のスケールとシフトまでの深度予測しか得られず、正確な 3D 再構成が妨げられます。
既存のソリューションでは、追加の 3D データセットまたはジオメトリ完全な深度アノテーションが必要となり、汎用性が制限されます。
リアルな 3D 構造を生成するために、再構成されたシーンの新しいビューをレンダリングし、さまざまなビュー間での奥行き推定の一貫性を高めるために損失関数を設計します。
包括的な実験は、追加のトレーニング情報を活用することなく、いくつかのベンチマーク データセットで既存の最先端の手法を上回る、フレームワークの優れた一般化機能を強調しています。
さらに、当社の革新的な損失関数により、モデルはラベルのない画像のみを使用してドメイン固有のスケール アンド シフト係数を自律的に回復できます。


In this study, we address the challenge of 3D scene structure recovery from monocular depth estimation. While traditional depth estimation methods leverage labeled datasets to directly predict absolute depth, recent advancements advocate for mix-dataset training, enhancing generalization across diverse scenes. However, such mixed dataset training yields depth predictions only up to an unknown scale and shift, hindering accurate 3D reconstructions. Existing solutions necessitate extra 3D datasets or geometry-complete depth annotations, constraints that limit their versatility. In this paper, we propose a learning framework that trains models to predict geometry-preserving depth without requiring extra data or annotations. To produce realistic 3D structures, we render novel views of the reconstructed scenes and design loss functions to promote depth estimation consistency across different views. Comprehensive experiments underscore our framework’s superior generalization capabilities, surpassing existing state-of-the-art methods on several benchmark datasets without leveraging extra training information. Moreover, our innovative loss functions empower the model to autonomously recover domain-specific scale-and-shift coefficients using solely unlabeled images.


著者 Chi Zhang,Wei Yin,Gang Yu,Zhibin Wang,Tao Chen,Bin Fu,Joey Tianyi Zhou,Chunhua Shen
発行日 2023-09-18 12:36:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV パーマリンク