S4R: Self-Supervised Semantic Scene Reconstruction from RGB-D Scans

要約

3D室内空間の包括的なセマンティックモデリングのためのほとんどの深層学習アプローチは、3D領域における高価な高密度のアノテーションを必要とする。本研究では、完全な自己教師ありアプローチを用いて、中心的な3Dシーンモデリングタスク、すなわち、セマンティックシーン再構成を探求する。この目的のために、我々は不完全な3D再構成とそれに対応するRGB-D画像の両方を用いる訓練可能なモデルを設計し、クロスドメインの特徴を体積埋め込みに融合して完全な3D形状、色、セマンティクスを予測する。また、RGB画像と汎用セマンティックセグメンテーションモデルをそれぞれ色と意味の監視に用いることで、色と意味の微分可能なレンダリングを実現することが重要な技術革新である。さらに、オリジナルの実写画像を補完する仮想学習ビューの拡張セットを合成する方法を開発し、より効率的なセマンティクスの自己監視を可能にする。本研究では、3Dや2Dのグランドトゥルースなしで、少数のRGB-D画像から幾何学的補完、色付け、意味マッピングを同時に行うエンドツーエンドの訓練可能なソリューションを提案する。本手法は、我々の知る限り、実世界の3Dスキャンの補完と意味的セグメンテーションに取り組む、初の完全自己教師付き方法である。本手法は、3D教師ありベースラインと同程度の性能を持ち、実際のデータセットにおいて2D教師ありベースラインを上回り、未知のシーンにもよく汎化される。

要約(オリジナル)

Most deep learning approaches to comprehensive semantic modeling of 3D indoor spaces require costly dense annotations in the 3D domain. In this work, we explore a central 3D scene modeling task, namely, semantic scene reconstruction, using a fully self-supervised approach. To this end, we design a trainable model that employs both incomplete 3D reconstructions and their corresponding source RGB-D images, fusing cross-domain features into volumetric embeddings to predict complete 3D geometry, color, and semantics. Our key technical innovation is to leverage differentiable rendering of color and semantics, using the observed RGB images and a generic semantic segmentation model as color and semantics supervision, respectively. We additionally develop a method to synthesize an augmented set of virtual training views complementing the original real captures, enabling more efficient self-supervision for semantics. In this work we propose an end-to-end trainable solution jointly addressing geometry completion, colorization, and semantic mapping from a few RGB-D images, without 3D or 2D ground-truth. Our method is the first, to our knowledge, fully self-supervised method addressing completion and semantic segmentation of real-world 3D scans. It performs comparably well with the 3D supervised baselines, surpasses baselines with 2D supervision on real datasets, and generalizes well to unseen scenes.

arxiv情報

著者 Junwen Huang,Alexey Artemorv,Yujin Chen,Shuaifeng Zhi,Kai Xu,Matthias Niessner
発行日 2023-02-07 17:47:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク