TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration

要約

私たちは、テキストと音楽の両方のモダリティを同時に組み込んだ 3D ダンスの動きを生成するための新しいタスクを提案します。
音楽などの単一のモダリティを使用してダンスの動きを生成する既存の作品とは異なり、私たちの目標は、テキストによって提供される指導情報に基づいて、より豊かなダンスの動きを生成することです。
ただし、音楽とテキストのモダリティの両方とペアになったモーション データが不足しているため、両方を統合したダンスの動きを生成する能力が制限されます。
この課題を軽減するために、3D ヒューマン モーション VQ-VAE を利用して 2 つのデータセットのモーションを量子化ベクトルで構成される潜在空間に投影し、トレーニング用に異なる分布を持つ 2 つのデータセットからのモーション トークンを効果的に混合することを提案します。
さらに、音楽条件付きダンス生成のパフォーマンスを低下させることなく 3D ダンス動作を生成するために、テキスト命令をモーション生成アーキテクチャに統合するクロスモーダル トランスフォーマーを提案します。
生成されたモーションの品質をより適切に評価するために、モーション予測距離 (MPD) とフリージング スコア (FS) という 2 つの新しい指標を導入し、生成されたモーションの一貫性とフリージングの割合を測定します。
広範な実験により、私たちのアプローチは、2 つの単一モダリティと同等のパフォーマンスを維持しながら、テキストと音楽の両方を条件とした現実的で一貫したダンスの動きを生成できることが示されています。
コードは https://garfield-kh.github.io/TM2D/ で入手できます。

要約(オリジナル)

We propose a novel task for generating 3D dance movements that simultaneously incorporate both text and music modalities. Unlike existing works that generate dance movements using a single modality such as music, our goal is to produce richer dance movements guided by the instructive information provided by the text. However, the lack of paired motion data with both music and text modalities limits the ability to generate dance movements that integrate both. To alleviate this challenge, we propose to utilize a 3D human motion VQ-VAE to project the motions of the two datasets into a latent space consisting of quantized vectors, which effectively mix the motion tokens from the two datasets with different distributions for training. Additionally, we propose a cross-modal transformer to integrate text instructions into motion generation architecture for generating 3D dance movements without degrading the performance of music-conditioned dance generation. To better evaluate the quality of the generated motion, we introduce two novel metrics, namely Motion Prediction Distance (MPD) and Freezing Score (FS), to measure the coherence and freezing percentage of the generated motion. Extensive experiments show that our approach can generate realistic and coherent dance movements conditioned on both text and music while maintaining comparable performance with the two single modalities. Code is available at https://garfield-kh.github.io/TM2D/.

arxiv情報

著者 Kehong Gong,Dongze Lian,Heng Chang,Chuan Guo,Zihang Jiang,Xinxin Zuo,Michael Bi Mi,Xinchao Wang
発行日 2023-10-01 15:23:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク