DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework

要約

音声駆動型ジェスチャ生成は、バーチャルヒューマン創作における新たな領域であり、現在の手法では、膨大なメモリを必要とし、推論速度が遅いという特徴を持つTransformerベースのアーキテクチャが主に利用されています。このような制限に対応するため、我々は、Mambaベースのアーキテクチャを採用し、生の音声のみから高度にパーソナライズされた3Dフルボディジェスチャーを生成するために作られた、新しいエンドツーエンドの生成モデルである「୧⃛(๑⃙⃘⁼̴̀꒳⁼̴́๑⃙⃘)୨⃛」を提案します。このモデルは、Mambaベースのファジー特徴抽出器と、非自己回帰的適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合しています。この抽出器は、MambaフレームワークとWavLMの事前訓練されたモデルを活用し、暗黙的で連続的なファジィ特徴を自律的に導出し、それを特異な潜在特徴に統一する。この特徴量は、AdaLN Mamba-2によって処理されます。Mamba-2は、ファジィ特徴量と結果として得られるジェスチャーシーケンスとの間の相互作用をロバストにモデル化するために、すべてのトークンに均一な条件メカニズムを実装しています。この革新的なアプローチにより、ジェスチャの自然さを維持しながら、ジェスチャと音声の同期の高い忠実度が保証される。学習と推論に拡散モデルを採用した我々のフレームワークは、ZEGGSとBEATのデータセットで主観的・客観的な評価を受けている。これらの評価により、DiTsアーキテクチャ(Persona-Gestors)と競合し、メモリ使用量を最適化し、推論速度を高速化することで、現代の最先端手法と比較して、我々のモデルの性能が向上していることが実証された。

要約(オリジナル)

Speech-driven gesture generation is an emerging domain within virtual human creation, where current methods predominantly utilize Transformer-based architectures that necessitate extensive memory and are characterized by slow inference speeds. In response to these limitations, we propose \textit{DiM-Gestures}, a novel end-to-end generative model crafted to create highly personalized 3D full-body gestures solely from raw speech audio, employing Mamba-based architectures. This model integrates a Mamba-based fuzzy feature extractor with a non-autoregressive Adaptive Layer Normalization (AdaLN) Mamba-2 diffusion architecture. The extractor, leveraging a Mamba framework and a WavLM pre-trained model, autonomously derives implicit, continuous fuzzy features, which are then unified into a singular latent feature. This feature is processed by the AdaLN Mamba-2, which implements a uniform conditional mechanism across all tokens to robustly model the interplay between the fuzzy features and the resultant gesture sequence. This innovative approach guarantees high fidelity in gesture-speech synchronization while maintaining the naturalness of the gestures. Employing a diffusion model for training and inference, our framework has undergone extensive subjective and objective evaluations on the ZEGGS and BEAT datasets. These assessments substantiate our model’s enhanced performance relative to contemporary state-of-the-art methods, demonstrating competitive outcomes with the DiTs architecture (Persona-Gestors) while optimizing memory usage and accelerating inference speed.

arxiv情報

著者 Fan Zhang,Naye Ji,Fuxing Gao,Bozuo Zhao,Jingmei Wu,Yanbing Jiang,Hui Du,Zhenqing Ye,Jiayang Zhu,WeiFan Zhong,Leyao Yan,Xiaomeng Ma
発行日 2024-08-01 08:22:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.GR, cs.RO, cs.SD パーマリンク