要約
3D形状生成は、特にVECSET拡散モデル(VDM)を通じて、いわゆる「ネイティブ」3D拡散の開発を通じて大幅に栄えました。
最近の進歩により、高解像度の3D形状の生成において有望な結果が示されていますが、VDMは依然として高速生成に苦労しています。
拡散サンプリングの加速だけでなく、VDMでのVAEデコードが不足しているため、以前の作品で採点されていない領域でも、課題が存在します。
これらの課題に対処するために、VDMでVAEとDITの両方を加速するための体系的なフレームワークであるFlashVDMを提示します。
DITの場合、FlashVDMは、5つの5つの推論ステップと同等の品質を備えた柔軟な拡散サンプリングを有効にします。これは、新しく導入された進行性の蒸留との一貫性の蒸留を安定化することで可能になります。
VAEについては、適応性のあるKV選択、階層ボリュームデコード、効率的なネットワーク設計を備えたLightning Vecsetデコーダーを導入します。
ボリュームのベクセットの局所性と形状表面のスパース性を活用することにより、デコーダーはフロップを大幅に低下させ、全体的なデコードオーバーヘッドを最小限に抑えます。
FlashVDMをHunyuan3D-2に適用して、Hunyuan3D-2ターボを取得します。
体系的な評価を通じて、私たちのモデルは既存の高速3D生成方法を大幅に上回り、最先端に同等のパフォーマンスを達成しながら、推論時間を再建のために45倍以上、世代のために32xを削減することを示します。
コードとモデルはhttps://github.com/tencent/flashvdmで入手できます。
要約(オリジナル)
3D shape generation has greatly flourished through the development of so-called ‘native’ 3D diffusion, particularly through the Vecset Diffusion Model (VDM). While recent advancements have shown promising results in generating high-resolution 3D shapes, VDM still struggles with high-speed generation. Challenges exist because of difficulties not only in accelerating diffusion sampling but also VAE decoding in VDM, areas under-explored in previous works. To address these challenges, we present FlashVDM, a systematic framework for accelerating both VAE and DiT in VDM. For DiT, FlashVDM enables flexible diffusion sampling with as few as 5 inference steps and comparable quality, which is made possible by stabilizing consistency distillation with our newly introduced Progressive Flow Distillation. For VAE, we introduce a lightning vecset decoder equipped with Adaptive KV Selection, Hierarchical Volume Decoding, and Efficient Network Design. By exploiting the locality of the vecset and the sparsity of shape surface in the volume, our decoder drastically lowers FLOPs, minimizing the overall decoding overhead. We apply FlashVDM to Hunyuan3D-2 to obtain Hunyuan3D-2 Turbo. Through systematic evaluation, we show that our model significantly outperforms existing fast 3D generation methods, achieving comparable performance to the state-of-the-art while reducing inference time by over 45x for reconstruction and 32x for generation. Code and models are available at https://github.com/Tencent/FlashVDM.
arxiv情報
著者 | Zeqiang Lai,Yunfei Zhao,Zibo Zhao,Haolin Liu,Fuyun Wang,Huiwen Shi,Xianghui Yang,Qinxiang Lin,Jinwei Huang,Yuhong Liu,Jie Jiang,Chunchao Guo,Xiangyu Yue |
発行日 | 2025-03-20 16:23:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google