EnergyMoGen: Compositional Human Motion Generation with Energy-Based Diffusion Model in Latent Space

要約

拡散モデル、特に潜在的な拡散モデルは、テキスト駆動型の人間の運動生成において顕著な成功を示しています。
ただし、潜在的な拡散モデルが複数のセマンティック概念を単一のコヒーレントモーションシーケンスに効果的に構成することは困難なままです。
この問題に対処するために、2つのスペクトルのエネルギーベースモデルを含むエネルギーゲンを提案します。(1)拡散モデルを、潜在空間で一連の拡散モデルを構成することにより動作を生成する潜在的なエネルギーベースのモデルとして解釈します。
(2)クロスアテナンスに基づいたセマンティックアウェアエネルギーモデルを導入します。これにより、テキストの埋め込みのセマンティック構成と適応勾配降下が可能になります。
これら2つのスペクトルにわたるセマンティックな矛盾と運動の歪みの課題を克服するために、相乗的エネルギー融合を導入します。
この設計により、動きの潜在拡散モデルは、テキストの説明に対応する複数のエネルギー項を組み合わせることにより、高品質の複雑な動きを合成することができます。
実験は、私たちのアプローチが、テキストから運動の生成、構成モーション生成、マルチコンセプトモーション生成など、さまざまなモーション生成タスクの既存の最先端モデルを上回ることを示しています。
さらに、モーションデータセットを拡張し、テキストからモーションへのタスクを改善するために、この方法を使用できることを実証します。

要約(オリジナル)

Diffusion models, particularly latent diffusion models, have demonstrated remarkable success in text-driven human motion generation. However, it remains challenging for latent diffusion models to effectively compose multiple semantic concepts into a single, coherent motion sequence. To address this issue, we propose EnergyMoGen, which includes two spectrums of Energy-Based Models: (1) We interpret the diffusion model as a latent-aware energy-based model that generates motions by composing a set of diffusion models in latent space; (2) We introduce a semantic-aware energy model based on cross-attention, which enables semantic composition and adaptive gradient descent for text embeddings. To overcome the challenges of semantic inconsistency and motion distortion across these two spectrums, we introduce Synergistic Energy Fusion. This design allows the motion latent diffusion model to synthesize high-quality, complex motions by combining multiple energy terms corresponding to textual descriptions. Experiments show that our approach outperforms existing state-of-the-art models on various motion generation tasks, including text-to-motion generation, compositional motion generation, and multi-concept motion generation. Additionally, we demonstrate that our method can be used to extend motion datasets and improve the text-to-motion task.

arxiv情報

著者 Jianrong Zhang,Hehe Fan,Yi Yang
発行日 2025-06-04 16:54:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク