要約
既存の単一画像から3Dの作成方法には、通常、2段階のプロセスが含まれ、最初にマルチビュー画像を生成し、次にこれらの画像を3D再構成に使用します。
ただし、これらの2つの段階を個別にトレーニングすると、推論段階で重要なデータバイアスが発生し、再構築された結果の品質に影響します。
拡散ベースのマルチビュー画像生成と3D再構成を再帰的拡散プロセスに統合するUsoboros3Dという名前の統一された3D生成フレームワークを紹介します。
私たちのフレームワークでは、これらの2つのモジュールは、自己条件付けメカニズムを通じて共同で訓練されており、堅牢な推論のために互いの特性に適応することができます。
マルチビュー除去プロセス中、マルチビュー拡散モデルは、以前のタイムステップで再構成モジュールによってレンダリングされた3D対応マップを追加の条件として使用します。
3D対応フィードバックを備えた再帰的拡散フレームワークは、プロセス全体を結合し、幾何学的な一貫性を改善します。実験は、私たちのフレームワークが、推論フェーズでそれらを組み合わせるこれら2つの段階と既存の方法の分離を上回ることを示しています。
プロジェクトページ:https://costwen.github.io/ouroboros3d/
要約(オリジナル)
Existing single image-to-3D creation methods typically involve a two-stage process, first generating multi-view images, and then using these images for 3D reconstruction. However, training these two stages separately leads to significant data bias in the inference phase, thus affecting the quality of reconstructed results. We introduce a unified 3D generation framework, named Ouroboros3D, which integrates diffusion-based multi-view image generation and 3D reconstruction into a recursive diffusion process. In our framework, these two modules are jointly trained through a self-conditioning mechanism, allowing them to adapt to each other’s characteristics for robust inference. During the multi-view denoising process, the multi-view diffusion model uses the 3D-aware maps rendered by the reconstruction module at the previous timestep as additional conditions. The recursive diffusion framework with 3D-aware feedback unites the entire process and improves geometric consistency.Experiments show that our framework outperforms separation of these two stages and existing methods that combine them at the inference phase. Project page: https://costwen.github.io/Ouroboros3D/
arxiv情報
著者 | Hao Wen,Zehuan Huang,Yaohui Wang,Xinyuan Chen,Lu Sheng |
発行日 | 2025-05-01 10:43:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google