Learning 3D Scene Priors with 2D Supervision

要約

全体的な 3D シーンの理解には、3D 環境でのレイアウト構成とオブジェクト ジオメトリの両方の推定が必要です。
最近の研究では、3D 監視 (3D バウンディング ボックスや CAD モデルなど) を活用することで、さまざまな入力モダリティ (画像、3D スキャンなど) からの 3D シーン推定の進歩が示されています。
この欠点に対処するために、3D グラウンド トゥルースを必要とせずにレイアウトと形状の 3D シーンの事前確率を学習する新しい方法を提案します。
代わりに、マルチビュー RGB 画像からの 2D 監視に依存しています。
このメソッドは、3D シーンを潜在ベクトルとして表し、そこから、クラス カテゴリ、3D バウンディング ボックス、およびメッシュによって特徴付けられるオブジェクトのシーケンスに段階的にデコードできます。
事前にシーンを表すトレーニング済みの自己回帰デコーダーを使用すると、この方法は、シーンの合成、補間、シングルビューの再構成など、多くのダウンストリーム アプリケーションを容易にします。
3D-FRONT と ScanNet での実験は、私たちの方法が単一ビュー再構成で最先端技術を上回り、3D 監視に必要なベースラインに対するシーン合成で最先端の結果を達成することを示しています。

要約(オリジナル)

Holistic 3D scene understanding entails estimation of both layout configuration and object geometry in a 3D environment. Recent works have shown advances in 3D scene estimation from various input modalities (e.g., images, 3D scans), by leveraging 3D supervision (e.g., 3D bounding boxes or CAD models), for which collection at scale is expensive and often intractable. To address this shortcoming, we propose a new method to learn 3D scene priors of layout and shape without requiring any 3D ground truth. Instead, we rely on 2D supervision from multi-view RGB images. Our method represents a 3D scene as a latent vector, from which we can progressively decode to a sequence of objects characterized by their class categories, 3D bounding boxes, and meshes. With our trained autoregressive decoder representing the scene prior, our method facilitates many downstream applications, including scene synthesis, interpolation, and single-view reconstruction. Experiments on 3D-FRONT and ScanNet show that our method outperforms state of the art in single-view reconstruction, and achieves state-of-the-art results in scene synthesis against baselines which require for 3D supervision.

arxiv情報

著者 Yinyu Nie,Angela Dai,Xiaoguang Han,Matthias Nießner
発行日 2022-11-25 15:03:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク