MCM: Multi-condition Motion Synthesis Framework for Multi-scenario

要約

複数条件の人間動作合成タスクの目的は、テキスト、音楽、音声などのさまざまな形式を含む、多様な条件付き入力を組み込むことです。
これにより、テキストからモーション、音楽からダンスなど、複数のシナリオに適応する機能がタスクに与えられます。
既存の研究は主に単一の条件に焦点を当てていますが、複数の条件による人間の動作の生成についてはまだ研究が進んでいません。
このペーパーでは、さまざまな条件下で複数のシナリオにまたがるモーション合成の新しいパラダイムである MCM を導入することで、これらの課題に対処します。
MCM フレームワークは、DDPM のような拡散モデルと統合して、生成機能を維持しながら複数条件の情報入力に対応できます。
具体的には、MCM はメイン ブランチとコントロール ブランチからなる 2 ブランチ アーキテクチャを採用しています。
制御ブランチはメイン ブランチと同じ構造を共有し、メイン ブランチのパラメータで初期化されるため、メイン ブランチの生成能力が効果的に維持され、複数条件の入力がサポートされます。
また、チャネル次元セルフ アテンション モジュールを通じてモーション シーケンスの空間的複雑さと関節間の相関をキャプチャできる、メイン ブランチとして Transformer ベースの拡散モデル MWNet (DDPM のような) を導入します。
定量的な比較は、私たちのアプローチが、テキストからモーションへのタスクと、音楽からダンスへのタスクにおける競争力のある結果の両方において、タスク固有の方法と同等の SoTA 結果を達成していることを示しています。
さらに、定性的評価では、MCM が、もともとテキストからモーションへのタスク用に設計された方法論を、音楽からダンスや音声からジェスチャーなどの領域に適応することを合理化し、大規模なネットワークの再構成の必要性を排除するだけでなく、
効果的な複数条件モーダル制御を可能にし、「一度訓練されたら動作が必要」を実現します。

要約(オリジナル)

The objective of the multi-condition human motion synthesis task is to incorporate diverse conditional inputs, encompassing various forms like text, music, speech, and more. This endows the task with the capability to adapt across multiple scenarios, ranging from text-to-motion and music-to-dance, among others. While existing research has primarily focused on single conditions, the multi-condition human motion generation remains underexplored. In this paper, we address these challenges by introducing MCM, a novel paradigm for motion synthesis that spans multiple scenarios under diverse conditions. The MCM framework is able to integrate with any DDPM-like diffusion model to accommodate multi-conditional information input while preserving its generative capabilities. Specifically, MCM employs two-branch architecture consisting of a main branch and a control branch. The control branch shares the same structure as the main branch and is initialized with the parameters of the main branch, effectively maintaining the generation ability of the main branch and supporting multi-condition input. We also introduce a Transformer-based diffusion model MWNet (DDPM-like) as our main branch that can capture the spatial complexity and inter-joint correlations in motion sequences through a channel-dimension self-attention module. Quantitative comparisons demonstrate that our approach achieves SoTA results in both text-to-motion and competitive results in music-to-dance tasks, comparable to task-specific methods. Furthermore, the qualitative evaluation shows that MCM not only streamlines the adaptation of methodologies originally designed for text-to-motion tasks to domains like music-to-dance and speech-to-gesture, eliminating the need for extensive network re-configurations but also enables effective multi-condition modal control, realizing ‘once trained is motion need’.

arxiv情報

著者 Zeyu Ling,Bo Han,Yongkang Wong,Mohan Kangkanhalli,Weidong Geng
発行日 2023-09-06 14:17:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク