要約
4Dコンテンツ生成の最近の進歩により、注目が高まっていますが、高品質のアニメーション化された3Dモデルの作成は、時空間分布のモデリングと4Dトレーニングデータの希少性の複雑さのために依然として困難です。
この論文では、任意の3Dメッシュの効率的なテキスト駆動型アニメーションを可能にする最初のフィードフォワードフレームワークであるAnimateanymeshを紹介します。
私たちのアプローチは、局所的なトポロジ構造を保存しながら空間的および時間的特徴を解き放つことにより、動的メッシュシーケンスを効果的に圧縮および再構築する新しいDymeshvaeアーキテクチャを活用します。
高品質のテキストコンディショナル生成を可能にするために、圧縮された潜在空間で修正されたフローベースのトレーニング戦略を採用しています。
さらに、テキスト注釈付きの4mを超えるダイナミックメッシュシーケンスを含むDymeshデータセットを提供します。
実験結果は、この方法が数秒で意味的に正確で一時的に一貫性のあるメッシュアニメーションを生成し、品質と効率の両方で既存のアプローチを大幅に上回ることを示しています。
私たちの仕事は、4Dコンテンツの作成をよりアクセスしやすく実用的にするための大きな前進を示しています。
すべてのデータ、コード、モデルはオープンリリースされます。
要約(オリジナル)
Recent advances in 4D content generation have attracted increasing attention, yet creating high-quality animated 3D models remains challenging due to the complexity of modeling spatio-temporal distributions and the scarcity of 4D training data. In this paper, we present AnimateAnyMesh, the first feed-forward framework that enables efficient text-driven animation of arbitrary 3D meshes. Our approach leverages a novel DyMeshVAE architecture that effectively compresses and reconstructs dynamic mesh sequences by disentangling spatial and temporal features while preserving local topological structures. To enable high-quality text-conditional generation, we employ a Rectified Flow-based training strategy in the compressed latent space. Additionally, we contribute the DyMesh Dataset, containing over 4M diverse dynamic mesh sequences with text annotations. Experimental results demonstrate that our method generates semantically accurate and temporally coherent mesh animations in a few seconds, significantly outperforming existing approaches in both quality and efficiency. Our work marks a substantial step forward in making 4D content creation more accessible and practical. All the data, code, and models will be open-released.
arxiv情報
| 著者 | Zijie Wu,Chaohui Yu,Fan Wang,Xiang Bai | 
| 発行日 | 2025-06-11 17:55:16+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
