Hunyuan3D-1.0: A Unified Framework for Text-to-3D and Image-to-3D Generation

要約

3D生成モデルはアーティストのワークフローを大きく改善したが、3D生成のための既存の拡散モデルは、生成に時間がかかり、汎化性が低いという問題を抱えている。この問題に対処するために、我々はHunyuan3D-1.0と名付けた2段階のアプローチを提案する。第一段階では、マルチビュー拡散モデルを採用し、マルチビューRGBを約4秒で効率的に生成する。これらのマルチビュー画像は、異なる視点から3D資産の豊富な詳細をキャプチャし、シングルビューからマルチビュー再構成へのタスクを緩和する。第2段階では、生成されたマルチビュー画像を用いて3D資産を迅速かつ忠実に約7秒で再構成するフィードフォワード再構成モデルを導入する。再構成ネットワークは、マルチビュー拡散によってもたらされるノイズや不整合を処理するように学習し、3D構造を効率的に復元するために、条件画像から利用可能な情報を活用する。Hunyuan3D-1.0は、高品質な3Dアセットを生成するのに有効であることが、広範な実験結果から実証されています。私たちのフレームワークは、テキストから画像へのモデル~ie、Hunyuan-DiTを含み、テキストと画像の両方の条件付き3D生成をサポートする統一されたフレームワークです。標準バージョンは、ライトや他の既存モデルよりもパラメータが$10times$多い。私たちのHunyuan3D-1.0は、スピードと品質の見事なバランスを達成し、生成されたアセットの品質と多様性を維持しながら、生成時間を大幅に短縮します。

要約(オリジナル)

While 3D generative models have greatly improved artists’ workflows, the existing diffusion models for 3D generation suffer from slow generation and poor generalization. To address this issue, we propose a two-stage approach named Hunyuan3D-1.0 including a lite version and a standard version, that both support text- and image-conditioned generation. In the first stage, we employ a multi-view diffusion model that efficiently generates multi-view RGB in approximately 4 seconds. These multi-view images capture rich details of the 3D asset from different viewpoints, relaxing the tasks from single-view to multi-view reconstruction. In the second stage, we introduce a feed-forward reconstruction model that rapidly and faithfully reconstructs the 3D asset given the generated multi-view images in approximately 7 seconds. The reconstruction network learns to handle noises and in-consistency introduced by the multi-view diffusion and leverages the available information from the condition image to efficiently recover the 3D structure. % Extensive experimental results demonstrate the effectiveness of Hunyuan3D-1.0 in generating high-quality 3D assets. Our framework involves the text-to-image model ~\ie, Hunyuan-DiT, making it a unified framework to support both text- and image-conditioned 3D generation. Our standard version has $10\times$ more parameters than our lite and other existing model. Our Hunyuan3D-1.0 achieves an impressive balance between speed and quality, significantly reducing generation time while maintaining the quality and diversity of the produced assets.

arxiv情報

著者 Xianghui Yang,Huiwen Shi,Bowen Zhang,Fan Yang,Jiacheng Wang,Hongxu Zhao,Xinhai Liu,Xinzhou Wang,Qingxiang Lin,Jiaao Yu,Lifu Wang,Zhuo Chen,Sicong Liu,Yuhong Liu,Yong Yang,Di Wang,Jie Jiang,Chunchao Guo
発行日 2024-11-04 17:21:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク