Bolt3D: Generating 3D Scenes in Seconds

要約

高速フィードフォワード3Dシーン生成のための潜在的な拡散モデルを提示します。
1つ以上の画像を考慮して、モデルBolt3Dは、単一のGPUで7秒未満で3Dシーン表現を直接サンプリングします。
これを実現し、強力でスケーラブルな既存の2D拡散ネットワークアーキテクチャを活用して、一貫した高忠実度の3Dシーン表現を生成します。
このモデルをトレーニングするために、既存のMultiView画像データセットに最先端の密集した3D再構成技術を適用することにより、3Dジオメトリと外観の大規模なマルチビュー分類のデータセットを作成します。
3D再構成にシーンごとの最適化を必要とする以前のマルチビュー生成モデルと比較して、Bolt3Dは推論コストを最大300倍削減します。

要約(オリジナル)

We present a latent diffusion model for fast feed-forward 3D scene generation. Given one or more images, our model Bolt3D directly samples a 3D scene representation in less than seven seconds on a single GPU. We achieve this by leveraging powerful and scalable existing 2D diffusion network architectures to produce consistent high-fidelity 3D scene representations. To train this model, we create a large-scale multiview-consistent dataset of 3D geometry and appearance by applying state-of-the-art dense 3D reconstruction techniques to existing multiview image datasets. Compared to prior multiview generative models that require per-scene optimization for 3D reconstruction, Bolt3D reduces the inference cost by a factor of up to 300 times.

arxiv情報

著者 Stanislaw Szymanowicz,Jason Y. Zhang,Pratul Srinivasan,Ruiqi Gao,Arthur Brussee,Aleksander Holynski,Ricardo Martin-Brualla,Jonathan T. Barron,Philipp Henzler
発行日 2025-03-18 17:24:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク