Efficient 3D Shape Generation via Diffusion Mamba with Bidirectional SSMs

要約

シーケンス モデリングの最近の進歩は、選択的状態空間アプローチで知られる Mamba アーキテクチャの開発につながり、効率的な長いシーケンスの処理に有望な手段を提供します。
ただし、特に高解像度での 3​​D 形状生成への応用はまだ研究されていません。
セルフ アテンション メカニズムを備えた従来の拡散トランス (DiT) は、その可能性にもかかわらず、入力長が増加するにつれてアテンション演算の 3 次複雑さによるスケーラビリティの課題に直面しています。
高解像度のボクセル サイズを扱う場合、この複雑さが大きな障害となります。
この課題に対処するために、3D 点群生成用に調整された新しい拡散アーキテクチャである Diffusion Mamba (DiM-3D) を導入します。
このアーキテクチャでは、従来のアテンション メカニズムを省略し、代わりに Mamba アーキテクチャの固有の効率を利用して、シーケンスの長さに関する線形の複雑さを維持します。
DiM-3D は、Gflops の削減で数値化された高速な推論時間と大幅に低い計算要求を特徴としており、これにより、以前のモデルの主要なスケーラビリティ問題に対処できます。
ShapeNet ベンチマークの実証結果は、DiM-3D が高忠実度で多様な 3D 形状の生成において最先端のパフォーマンスを達成していることを示しています。
さらに、DiM-3D は、3D 点群の完成などのタスクでも優れた機能を発揮します。
これはモデルのスケーラビリティを証明するだけでなく、高度な 3D 形状モデリングに必要な詳細な高解像度ボクセルを生成する効率が特に高解像度ボクセル サイズを必要とする環境で優れていることを強調します。
これらの調査結果を通じて、3D 形状生成における Diffusion Mamba フレームワークの優れたスケーラビリティと効率性を示し、この分野の新しい標準を設定し、高解像度 3D モデリング テクノロジの将来の探索への道を切り開きます。

要約(オリジナル)

Recent advancements in sequence modeling have led to the development of the Mamba architecture, noted for its selective state space approach, offering a promising avenue for efficient long sequence handling. However, its application in 3D shape generation, particularly at high resolutions, remains underexplored. Traditional diffusion transformers (DiT) with self-attention mechanisms, despite their potential, face scalability challenges due to the cubic complexity of attention operations as input length increases. This complexity becomes a significant hurdle when dealing with high-resolution voxel sizes. To address this challenge, we introduce a novel diffusion architecture tailored for 3D point clouds generation-Diffusion Mamba (DiM-3D). This architecture forgoes traditional attention mechanisms, instead utilizing the inherent efficiency of the Mamba architecture to maintain linear complexity with respect to sequence length. DiM-3D is characterized by fast inference times and substantially lower computational demands, quantified in reduced Gflops, thereby addressing the key scalability issues of prior models. Our empirical results on the ShapeNet benchmark demonstrate that DiM-3D achieves state-of-the-art performance in generating high-fidelity and diverse 3D shapes. Additionally, DiM-3D shows superior capabilities in tasks like 3D point cloud completion. This not only proves the model’s scalability but also underscores its efficiency in generating detailed, high-resolution voxels necessary for advanced 3D shape modeling, particularly excelling in environments requiring high-resolution voxel sizes. Through these findings, we illustrate the exceptional scalability and efficiency of the Diffusion Mamba framework in 3D shape generation, setting a new standard for the field and paving the way for future explorations in high-resolution 3D modeling technologies.

arxiv情報

著者 Shentong Mo
発行日 2024-06-07 16:02:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク