Fast Training of Diffusion Transformer with Extreme Masking for 3D Point Clouds Generation

要約

拡散トランスは最近、高品質の 3D 点群の生成において顕著な効果を示しています。
ただし、高解像度 3D ボクセルのボクセルベースの拡散モデルのトレーニングは、ボクセルの追加次元から生じるアテンション オペレーターの 3 次複雑さのため、依然として法外なコストがかかります。
2D と比較した 3D の固有の冗長性を動機として、トレーニング コストを大幅に削減する、効率的な 3D 点群生成用に調整された新しいマスク拡散変換器である FastDiT-3D を提案します。
具体的には、マスクされたオートエンコーダーからインスピレーションを得て、マスクされたボクセル化点群上でノイズ除去プロセスを動的に操作します。
また、ボクセル化された点群から背景/前景情報を適応的に集約する新しいボクセル認識マスキング戦略も提案します。
私たちの手法は、ほぼ 99% という極めて高いマスキング率で最先端のパフォーマンスを実現します。
さらに、マルチカテゴリ 3D 生成を改善するために、3D 拡散モデルに Mixture-of-Expert (MoE) を導入します。
各カテゴリは、異なる専門家と異なる拡散経路を学習し、勾配の競合を軽減できます。
ShapeNet データセットの実験結果は、私たちの方法が最先端の高忠実度で多様な 3D 点群生成パフォーマンスを達成していることを示しています。
当社の FastDiT-3D は、元のトレーニング コストの 6.5% のみを使用して、128 解像度のボクセル点群を生成する際の 1 最近傍精度とカバレッジ メトリクスを向上させます。

要約(オリジナル)

Diffusion Transformers have recently shown remarkable effectiveness in generating high-quality 3D point clouds. However, training voxel-based diffusion models for high-resolution 3D voxels remains prohibitively expensive due to the cubic complexity of attention operators, which arises from the additional dimension of voxels. Motivated by the inherent redundancy of 3D compared to 2D, we propose FastDiT-3D, a novel masked diffusion transformer tailored for efficient 3D point cloud generation, which greatly reduces training costs. Specifically, we draw inspiration from masked autoencoders to dynamically operate the denoising process on masked voxelized point clouds. We also propose a novel voxel-aware masking strategy to adaptively aggregate background/foreground information from voxelized point clouds. Our method achieves state-of-the-art performance with an extreme masking ratio of nearly 99%. Moreover, to improve multi-category 3D generation, we introduce Mixture-of-Expert (MoE) in 3D diffusion model. Each category can learn a distinct diffusion path with different experts, relieving gradient conflict. Experimental results on the ShapeNet dataset demonstrate that our method achieves state-of-the-art high-fidelity and diverse 3D point cloud generation performance. Our FastDiT-3D improves 1-Nearest Neighbor Accuracy and Coverage metrics when generating 128-resolution voxel point clouds, using only 6.5% of the original training cost.

arxiv情報

著者 Shentong Mo,Enze Xie,Yue Wu,Junsong Chen,Matthias Nießner,Zhenguo Li
発行日 2023-12-12 12:50:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク