M2D2M: Multi-Motion Generation from Text with Discrete Diffusion Models

要約

離散拡散モデルの長所を利用して、複数の動作のテキスト記述から人間の動作を生成する新しいアプローチであるマルチモーション離散拡散モデル (M2D2M) を紹介します。
このアプローチは、マルチモーション シーケンスを生成するという課題に適切に対処し、モーションのシームレスな移行と一連のアクション全体の一貫性を確保します。
M2D2M の強みは、離散拡散モデル内の動的遷移確率にあり、モーション トークン間の近接性に基づいて遷移確率を適応させ、異なるモード間の混合を促進します。
M2D2M は、独立したノイズ除去ステップと共同ノイズ除去ステップを含む 2 フェーズのサンプリング戦略によって補完され、単一モーション生成用にトレーニングされたモデルを利用して、長期間の滑らかで文脈的に一貫した人間のモーション シーケンスを効果的に生成します。
広範な実験により、M2D2M がテキスト記述からのモーション生成に関する現在の最先端のベンチマークを上回っていることが実証され、言語セマンティクスの解釈と動的でリアルなモーションの生成におけるその有効性が示されています。

要約(オリジナル)

We introduce the Multi-Motion Discrete Diffusion Models (M2D2M), a novel approach for human motion generation from textual descriptions of multiple actions, utilizing the strengths of discrete diffusion models. This approach adeptly addresses the challenge of generating multi-motion sequences, ensuring seamless transitions of motions and coherence across a series of actions. The strength of M2D2M lies in its dynamic transition probability within the discrete diffusion model, which adapts transition probabilities based on the proximity between motion tokens, encouraging mixing between different modes. Complemented by a two-phase sampling strategy that includes independent and joint denoising steps, M2D2M effectively generates long-term, smooth, and contextually coherent human motion sequences, utilizing a model trained for single-motion generation. Extensive experiments demonstrate that M2D2M surpasses current state-of-the-art benchmarks for motion generation from text descriptions, showcasing its efficacy in interpreting language semantics and generating dynamic, realistic motions.

arxiv情報

著者 Seunggeun Chi,Hyung-gun Chi,Hengbo Ma,Nakul Agarwal,Faizan Siddiqui,Karthik Ramani,Kwonjoon Lee
発行日 2024-07-19 17:57:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク