MegaSynth: Scaling Up 3D Scene Reconstruction with Synthesized Data

要約

合成データを使用してトレーニングすることで 3D シーンの再構成をスケールアップすることを提案します。
私たちの仕事の中核となるのは、MegaSynth です。MegaSynth は、700K のシーンで構成される手続き的に生成された 3D データセットです。これは、以前の実際のデータセット DL3DV の 50 倍以上であり、トレーニング データを大幅にスケーリングします。
スケーラブルなデータ生成を可能にするための重要なアイデアは、セマンティック情報を排除し、オブジェクト アフォーダンスやシーン構成などの複雑なセマンティック事前モデルをモデル化する必要性を取り除くことです。
代わりに、基本的な空間構造とジオメトリ プリミティブを使用してシーンをモデル化し、スケーラビリティを提供します。
さらに、データの複雑さを制御してトレーニングを促進しながら、現実世界の一般化に役立つように現実世界のデータ分布と大まかに調整します。
MegaSynth と利用可能な実際のデータの両方を使用して LRM のトレーニングを検討します。
実験結果は、MegaSynth を使用した共同トレーニングまたは事前トレーニングにより、さまざまな画像領域にわたって再構成品質が 1.2 ~ 1.8 dB PSNR 向上することを示しています。
さらに、MegaSynth のみでトレーニングされたモデルは、実際のデータでトレーニングされたモデルと同等のパフォーマンスを示し、3D 再構成の低レベルの性質が強調されます。
さらに、モデルの機能、トレーニングの安定性、一般化を強化するために、MegaSynth のプロパティの詳細な分析を提供します。

要約(オリジナル)

We propose scaling up 3D scene reconstruction by training with synthesized data. At the core of our work is MegaSynth, a procedurally generated 3D dataset comprising 700K scenes – over 50 times larger than the prior real dataset DL3DV – dramatically scaling the training data. To enable scalable data generation, our key idea is eliminating semantic information, removing the need to model complex semantic priors such as object affordances and scene composition. Instead, we model scenes with basic spatial structures and geometry primitives, offering scalability. Besides, we control data complexity to facilitate training while loosely aligning it with real-world data distribution to benefit real-world generalization. We explore training LRMs with both MegaSynth and available real data. Experiment results show that joint training or pre-training with MegaSynth improves reconstruction quality by 1.2 to 1.8 dB PSNR across diverse image domains. Moreover, models trained solely on MegaSynth perform comparably to those trained on real data, underscoring the low-level nature of 3D reconstruction. Additionally, we provide an in-depth analysis of MegaSynth’s properties for enhancing model capability, training stability, and generalization.

arxiv情報

著者 Hanwen Jiang,Zexiang Xu,Desai Xie,Ziwen Chen,Haian Jin,Fujun Luan,Zhixin Shu,Kai Zhang,Sai Bi,Xin Sun,Jiuxiang Gu,Qixing Huang,Georgios Pavlakos,Hao Tan
発行日 2024-12-18 18:59:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク