TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration

要約

タイトル:音楽テキスト統合による2つのモード駆動の3Dダンス生成 (TM2D)

要約:

– シングルモダリティ(音楽など)によるダンス生成ではなく、テキストによる指示情報を同時に取り入れた3Dダンス動作を生成することを目的とする、新しいタスクを提案する。
– 両方のモダリティ(音楽とテキスト)のペアモーションデータが不足しているため、混合学習を助けるために、2つのデータセットのモーションを、量子化されたベクトルからなる潜在空間にプロジェクトする3DヒューマンモーションVQ-VAEを提案する。
– バイモーダルトランスフォーマーを提案し、テキストの指示情報をモーション生成アーキテクチャに統合し、音楽によるダンス生成の性能を低下させることなく3Dダンス動作を生成する。
– 適切な生成されたモーションの品質を評価するために、2つの新しいメトリック、Motion Prediction Distance(MPD)とFreezing Scoreを導入し、生成されたモーションの連続性とフリーズの割合を測定する。
– 多数の実験により、音楽とテキストの両方に依存する現実的で連続性のあるダンス動作を生成する方法を提案し、2つの単一のモダリティと同等の性能を維持することができた。コードは以下のURLで公開される: https://garfield-kh.github.io/TM2D/。

要約(オリジナル)

We propose a novel task for generating 3D dance movements that simultaneously incorporate both text and music modalities. Unlike existing works that generate dance movements using a single modality such as music, our goal is to produce richer dance movements guided by the instructive information provided by the text. However, the lack of paired motion data with both music and text modalities limits the ability to generate dance movements that integrate both. To alleviate this challenge, we propose to utilize a 3D human motion VQ-VAE to project the motions of the two datasets into a latent space consisting of quantized vectors, which effectively mix the motion tokens from the two datasets with different distributions for training. Additionally, we propose a cross-modal transformer to integrate text instructions into motion generation architecture for generating 3D dance movements without degrading the performance of music-conditioned dance generation. To better evaluate the quality of the generated motion, we introduce two novel metrics, namely Motion Prediction Distance (MPD) and Freezing Score, to measure the coherence and freezing percentage of the generated motion. Extensive experiments show that our approach can generate realistic and coherent dance movements conditioned on both text and music while maintaining comparable performance with the two single modalities. Code will be available at: https://garfield-kh.github.io/TM2D/.

arxiv情報

著者 Kehong Gong,Dongze Lian,Heng Chang,Chuan Guo,Xinxin Zuo,Zihang Jiang,Xinchao Wang
発行日 2023-04-05 12:58:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク