Learning 3D Object Shape and Layout without 3D Supervision

要約

3Dシーンは、オブジェクトのセットで構成され、各オブジェクトには、空間内での位置を示す形状とレイアウトがあります。
2D画像から3Dシーンを理解することは、ロボット工学やグラフィックスのアプリケーションにとって重要な目標です。
単一の画像から3Dの形状とレイアウトを予測することは最近進歩していますが、ほとんどのアプローチは、大規模に収集するのに費用がかかるトレーニングのために3Dグラウンドトゥルースに依存しています。
これらの制限を克服し、グラウンドトゥルースの形状やレイアウト情報なしでオブジェクトの3D形状とレイアウトを予測する方法を提案します。代わりに、大規模でより簡単に収集できる2D監視付きのマルチビュー画像に依存します。
3Dギャラリー、Hypersim、ScanNetでの広範な実験を通じて、私たちのアプローチが現実的な画像の大規模なデータセットに対応し、3Dグラウンドトゥルースに依存する方法と比べて遜色がないことを示しています。
信頼性の高い3Dグラウンドトゥルースが利用できないHypersimとScanNetでは、私たちのアプローチは、より小さく多様性の少ないデータセットでトレーニングされた教師ありアプローチよりも優れています。

要約(オリジナル)

A 3D scene consists of a set of objects, each with a shape and a layout giving their position in space. Understanding 3D scenes from 2D images is an important goal, with applications in robotics and graphics. While there have been recent advances in predicting 3D shape and layout from a single image, most approaches rely on 3D ground truth for training which is expensive to collect at scale. We overcome these limitations and propose a method that learns to predict 3D shape and layout for objects without any ground truth shape or layout information: instead we rely on multi-view images with 2D supervision which can more easily be collected at scale. Through extensive experiments on 3D Warehouse, Hypersim, and ScanNet we demonstrate that our approach scales to large datasets of realistic images, and compares favorably to methods relying on 3D ground truth. On Hypersim and ScanNet where reliable 3D ground truth is not available, our approach outperforms supervised approaches trained on smaller and less diverse datasets.

arxiv情報

著者 Georgia Gkioxari,Nikhila Ravi,Justin Johnson
発行日 2022-06-14 17:49:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク