要約
生成的人工知能はテキスト、画像、オーディオ、ビデオドメイン全体で大幅に進歩していますが、データ不足、アルゴリズムの制限、生態系の断片化などの基本的な課題により、3D生成は比較的未開発のままです。
この目的のために、次のような課題に対処するオープンなフレームワークであるStep1x-3dを提示します。(1)標準化された幾何学的およびテクスチャー特性を備えた2mの高品質データセットを作成するための厳密なデータキュレーションパイプライン処理> 5mアセット。
(2)拡散ベースのテクスチャ合成モジュールとハイブリッドVAE-DITジオメトリジェネレーターを組み合わせた2段階の3Dネイティブアーキテクチャ。
(3)モデル、トレーニングコード、および適応モジュールの完全なオープンソースリリース。
ジオメトリの生成については、ハイブリッドVAE-DITコンポーネントは、詳細保存のためにシャープなエッジサンプリングを使用して知覚機ベースの潜在エンコードを使用することにより、TSDF表現を生成します。
拡散ベースのテクスチャ合成モジュールは、幾何学的コンディショニングと潜在スペースの同期を通じてクロスビューの一貫性を保証します。
ベンチマークの結果は、既存のオープンソース方法を超える最先端のパフォーマンスを示し、同時に独自のソリューションで競争力を達成しています。
特に、このフレームワークは、2D制御技術の直接転送〜(例えば、LORA)から3D合成への直接転送をサポートすることにより、2Dおよび3D世代のパラダイムを一意に橋渡しします。
データ品質、アルゴリズムの忠実度、および再現性を同時に進めることにより、STEP1X-3Dは、制御可能な3Dアセット生成におけるオープン研究の新しい基準を確立することを目指しています。
要約(オリジナル)
While generative artificial intelligence has advanced significantly across text, image, audio, and video domains, 3D generation remains comparatively underdeveloped due to fundamental challenges such as data scarcity, algorithmic limitations, and ecosystem fragmentation. To this end, we present Step1X-3D, an open framework addressing these challenges through: (1) a rigorous data curation pipeline processing >5M assets to create a 2M high-quality dataset with standardized geometric and textural properties; (2) a two-stage 3D-native architecture combining a hybrid VAE-DiT geometry generator with an diffusion-based texture synthesis module; and (3) the full open-source release of models, training code, and adaptation modules. For geometry generation, the hybrid VAE-DiT component produces TSDF representations by employing perceiver-based latent encoding with sharp edge sampling for detail preservation. The diffusion-based texture synthesis module then ensures cross-view consistency through geometric conditioning and latent-space synchronization. Benchmark results demonstrate state-of-the-art performance that exceeds existing open-source methods, while also achieving competitive quality with proprietary solutions. Notably, the framework uniquely bridges the 2D and 3D generation paradigms by supporting direct transfer of 2D control techniques~(e.g., LoRA) to 3D synthesis. By simultaneously advancing data quality, algorithmic fidelity, and reproducibility, Step1X-3D aims to establish new standards for open research in controllable 3D asset generation.
arxiv情報
著者 | Weiyu Li,Xuanyang Zhang,Zheng Sun,Di Qi,Hao Li,Wei Cheng,Weiwei Cai,Shihao Wu,Jiarui Liu,Zihao Wang,Xiao Chen,Feipeng Tian,Jianxiong Pan,Zeming Li,Gang Yu,Xiangyu Zhang,Daxin Jiang,Ping Tan |
発行日 | 2025-05-12 16:56:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google