Unsupervised Single-shot Depth Estimation using Perceptual Reconstruction

要約

実際のオブジェクトの深度のリアルタイム推定は、3D再構成、シーン理解、状態評価などの様々な自律システムタスクに不可欠なモジュールである。機械学習の過去10年間で、コンピュータビジョンタスクへの深層学習手法の広範な展開は、単純なRGBモダリティから現実的な深度合成を達成することに成功したアプローチをもたらした。これらのモデルのほとんどは、ペアRGB深度データおよび/またはビデオシーケンスとステレオ画像の利用可能性に基づいています。しかし、シーケンス、ステレオデータ、およびRGB深度ペアの欠如により、深度推定は完全に教師なし単一画像転送問題となり、これまでほとんど研究されていない。本研究では、完全教師なしシングルショット深度推定を確立するために、生成的ニューラルネットワークの分野における最近の進歩に基づき、研究を行う。RGBから深度、深度からRGBへの転送のための2つの生成器を実装し、Wasserstein-1距離、新しい知覚的再構成項、手作りの画像フィルタを用いて同時に最適化した。我々は、産業用表面深度データ、Texas 3D顔認識データベース、CelebAMask-HQデータベース、SURREALデータセット(身体の深度を記録)を用いてモデルを包括的に評価する。各評価データセットにおいて、提案手法は、最新の単一画像転送手法と比較して、深度精度が大幅に向上していることがわかる。

要約(オリジナル)

Real-time estimation of actual object depth is an essential module for various autonomous system tasks such as 3D reconstruction, scene understanding and condition assessment. During the last decade of machine learning, extensive deployment of deep learning methods to computer vision tasks has yielded approaches that succeed in achieving realistic depth synthesis out of a simple RGB modality. Most of these models are based on paired RGB-depth data and/or the availability of video sequences and stereo images. The lack of sequences, stereo data and RGB-depth pairs makes depth estimation a fully unsupervised single-image transfer problem that has barely been explored so far. This study builds on recent advances in the field of generative neural networks in order to establish fully unsupervised single-shot depth estimation. Two generators for RGB-to-depth and depth-to-RGB transfer are implemented and simultaneously optimized using the Wasserstein-1 distance, a novel perceptual reconstruction term and hand-crafted image filters. We comprehensively evaluate the models using industrial surface depth data as well as the Texas 3D Face Recognition Database, the CelebAMask-HQ database of human portraits and the SURREAL dataset that records body depth. For each evaluation dataset the proposed method shows a significant increase in depth accuracy compared to state-of-the-art single-image transfer methods.

arxiv情報

著者 Christoph Angermann,Matthias Schwab,Markus Haltmeier,Christian Laubichler,Steinbjörn Jónsson
発行日 2022-06-08 14:35:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク