要約
拡散技術における最近の進歩により、画像とビデオ生成が前例のないレベルの品質を推進し、生成AIの展開と適用を大幅に促進しました。
ただし、3Dデータスケールの制限、3Dデータプロセスの複雑さ、および3Dドメインの高度な技術の不十分な調査に制約されている3Dシェイプ生成テクノロジーは、これまで遅れています。
3D形状生成への現在のアプローチは、出力の品質、一般化能力、および入力条件との整合に関して、大きな課題に直面しています。
入力画像に正確に対応する高忠実度3Dメッシュを生成できる新しい合理化された形状拡散パラダイムであるTriposgを提示します。
具体的には、次の提案を提案します。1)3D形状生成のための大規模な修正フロートランス。
2)3D VAEのSDF、正常、およびエイコナル損失を組み合わせたハイブリッドの監視されたトレーニング戦略と、高品質の3D再構成パフォーマンスを達成します。
3)200万台の高品質の3Dサンプルを生成するためのデータ処理パイプライン。3Dジェネレーティブモデルのトレーニングにおけるデータ品質と数量の重要なルールを強調します。
包括的な経験を通じて、新しいフレームワークの各コンポーネントの有効性を検証しました。
これらの部品のシームレスな統合により、Triposgは3D形状生成で最先端のパフォーマンスを実現することができました。
結果として得られる3D形状は、高解像度の機能のために詳細を示し、入力するための例外的な忠実度を示します。
さらに、TRIPOSGは、多様な画像スタイルと内容から3Dモデルを生成する際の汎用性の向上を示し、強力な源泉徴収能力を示しています。
3D世代の分野での進歩と革新を促進するために、モデルを公開します。
要約(オリジナル)
Recent advancements in diffusion techniques have propelled image and video generation to unprece- dented levels of quality, significantly accelerating the deployment and application of generative AI. However, 3D shape generation technology has so far lagged behind, constrained by limitations in 3D data scale, complexity of 3D data process- ing, and insufficient exploration of advanced tech- niques in the 3D domain. Current approaches to 3D shape generation face substantial challenges in terms of output quality, generalization capa- bility, and alignment with input conditions. We present TripoSG, a new streamlined shape diffu- sion paradigm capable of generating high-fidelity 3D meshes with precise correspondence to input images. Specifically, we propose: 1) A large-scale rectified flow transformer for 3D shape generation, achieving state-of-the-art fidelity through training on extensive, high-quality data. 2) A hybrid supervised training strategy combining SDF, normal, and eikonal losses for 3D VAE, achieving high- quality 3D reconstruction performance. 3) A data processing pipeline to generate 2 million high- quality 3D samples, highlighting the crucial rules for data quality and quantity in training 3D gen- erative models. Through comprehensive experi- ments, we have validated the effectiveness of each component in our new framework. The seamless integration of these parts has enabled TripoSG to achieve state-of-the-art performance in 3D shape generation. The resulting 3D shapes exhibit en- hanced detail due to high-resolution capabilities and demonstrate exceptional fidelity to input im- ages. Moreover, TripoSG demonstrates improved versatility in generating 3D models from diverse image styles and contents, showcasing strong gen- eralization capabilities. To foster progress and innovation in the field of 3D generation, we will make our model publicly available.
arxiv情報
著者 |
Yangguang Li,Zi-Xin Zou,Zexiang Liu,Dehu Wang,Yuan Liang,Zhipeng Yu,Xingchao Liu,Yuan-Chen Guo,Ding Liang,Wanli Ouyang,Yan-Pei Cao |
発行日 |
2025-02-10 16:07:54+00:00 |
arxivサイト |
arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google