UnifiedGesture: A Unified Gesture Synthesis Model for Multiple Skeletons

要約

共同音声ジェスチャの自動生成は、コンピュータ アニメーションで大きな注目を集めています。
以前の研究では、個々のデータセットに基づいてネットワーク構造を設計していたため、データ量が不足し、さまざまなモーション キャプチャ規格間での汎用性が不足していました。
さらに、音声とジェスチャーの相関関係が弱いため、これは困難な作業です。
これらの問題に対処するために、異なるスケルトンを持つ複数のジェスチャ データセットでトレーニングされた、新しい拡散モデルベースの音声駆動ジェスチャ合成アプローチである UnifiedGesture を紹介します。
具体的には、まず、さまざまなモーション キャプチャ規格の潜在同型グラフを学習するためのリターゲティング ネットワークを提示し、データセットを拡張しながらさまざまなジェスチャの表現を統一します。
次に、局所間注意と自己注意を使用した拡散モデル アーキテクチャに基づいて音声とジェスチャの間の相関関係を捕捉し、より音声と一致した現実的なジェスチャを生成します。
音声とジェスチャーをさらに調整し、多様性を高めるために、学習された報酬関数を備えた離散ジェスチャー単位の強化学習を組み込みます。
広範な実験により、UnifiedGesture が、CCA、FGD、および人間らしさの点で、音声駆動のジェスチャ生成に関する最近のアプローチよりも優れていることが示されています。
すべてのコード、事前トレーニングされたモデル、データベース、デモは https://github.com/YoungSeng/UnifiedGesture で公開されています。

要約(オリジナル)

The automatic co-speech gesture generation draws much attention in computer animation. Previous works designed network structures on individual datasets, which resulted in a lack of data volume and generalizability across different motion capture standards. In addition, it is a challenging task due to the weak correlation between speech and gestures. To address these problems, we present UnifiedGesture, a novel diffusion model-based speech-driven gesture synthesis approach, trained on multiple gesture datasets with different skeletons. Specifically, we first present a retargeting network to learn latent homeomorphic graphs for different motion capture standards, unifying the representations of various gestures while extending the dataset. We then capture the correlation between speech and gestures based on a diffusion model architecture using cross-local attention and self-attention to generate better speech-matched and realistic gestures. To further align speech and gesture and increase diversity, we incorporate reinforcement learning on the discrete gesture units with a learned reward function. Extensive experiments show that UnifiedGesture outperforms recent approaches on speech-driven gesture generation in terms of CCA, FGD, and human-likeness. All code, pre-trained models, databases, and demos are available to the public at https://github.com/YoungSeng/UnifiedGesture.

arxiv情報

著者 Sicheng Yang,Zilin Wang,Zhiyong Wu,Minglei Li,Zhensong Zhang,Qiaochu Huang,Lei Hao,Songcen Xu,Xiaofei Wu,changpeng yang,Zonghong Dai
発行日 2023-09-13 16:07:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC, cs.MM パーマリンク