MCM: Multi-condition Motion Synthesis Framework

要約

条件付きヒューマン モーション合成 (HMS) は、特定の条件に適合するヒューマン モーション シーケンスを生成することを目的としています。
テキストとオーディオは、HMS 制御条件として使用される 2 つの主要なモダリティを表します。
既存の研究は主に単一の条件に焦点を当てていますが、複数の条件による人間の動作の合成についてはまだ研究が進んでいません。
本研究では、メインブランチとコントロールブランチから構成されるデュアルブランチ構造に基づく、MCM と呼ばれるマルチ条件 HMS フレームワークを提案します。
このフレームワークは、最初はテキスト条件のみを前提としていた拡散モデルの適用可能性を、聴覚条件にも効果的に拡張します。
この拡張機能は、モーションの本質的な品質と元のモデルに固有の意味的関連付けの機能を維持しながら、音楽とダンスの HMS と同時音声 HMS の両方を包含します。
さらに、メインブランチとして、MWNet と呼ばれる Transformer ベースの拡散モデルの実装を提案します。
このモデルは、動作シーケンスに固有の空間の複雑さと関節間の相関関係を適切に把握しており、多方向の自己注意モジュールの統合によって促進されます。
広範な実験により、私たちの方法が単一条件および複数条件の HMS タスクで競合する結果を達成できることが示されています。

要約(オリジナル)

Conditional human motion synthesis (HMS) aims to generate human motion sequences that conform to specific conditions. Text and audio represent the two predominant modalities employed as HMS control conditions. While existing research has primarily focused on single conditions, the multi-condition human motion synthesis remains underexplored. In this study, we propose a multi-condition HMS framework, termed MCM, based on a dual-branch structure composed of a main branch and a control branch. This framework effectively extends the applicability of the diffusion model, which is initially predicated solely on textual conditions, to auditory conditions. This extension encompasses both music-to-dance and co-speech HMS while preserving the intrinsic quality of motion and the capabilities for semantic association inherent in the original model. Furthermore, we propose the implementation of a Transformer-based diffusion model, designated as MWNet, as the main branch. This model adeptly apprehends the spatial intricacies and inter-joint correlations inherent in motion sequences, facilitated by the integration of multi-wise self-attention modules. Extensive experiments show that our method achieves competitive results in single-condition and multi-condition HMS tasks.

arxiv情報

著者 Zeyu Ling,Bo Han,Yongkang Wongkan,Han Lin,Mohan Kankanhalli,Weidong Geng
発行日 2024-04-19 13:40:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク