要約
生き生きとした多様な3D共同音声ジェスチャを生成することは、バーチャルアバターのアニメーションの様々なアプリケーションにとって極めて重要である。既存の手法の多くは、音声から直接ジェスチャーを生成することができるが、感情が本格的な音声ジェスチャー生成の重要な要素の1つであることを見落としている。本研究では、音声から生き生きとした多様な感情的同音声3Dジェスチャを合成するための新しいフレームワークであるEmotionGestureを提案する。感情はしばしば音声のリズムビートと絡み合っていることを考慮し、我々はまず、感情と音声ビートの特徴を抽出し、トランスクリプトベースの視覚-リズムアライメントを介してそれらの相関関係をモデル化するEmotion-Beat Miningモジュール(EBM)を開発する。次に、与えられた初期ポーズから将来のジェスチャーを生成するために、初期ポーズベースの空間-時間プロンプター(STP)を提案する。STPは、初期ポーズと将来のジェスチャーとの間の空間的-時間的相関を効果的にモデル化し、空間的-時間的に首尾一貫したポーズプロンプトを生成する。ポーズプロンプト、感情、音声ビート特徴を得たら、変換器アーキテクチャを通して3D共同音声ジェスチャーを生成する。しかし、既存のデータセットのポーズにはジッタリング効果が含まれていることが多く、不安定なジェスチャーを生成することになる。この問題に対処するため、我々は「動き滑らか損失」と呼ばれる効果的な目的関数を提案する。具体的には、運動オフセットをモデル化し、ジェスチャーが滑らかになるように強制することで、ジッタリングするグランドトゥルースを補正する。最後に、感情特徴量をサンプリングするための感情条件付きVAEを提示し、多様な感情結果を生成することを可能にする。広範な実験により、我々のフレームワークが最先端技術を凌駕し、生き生きとした多様な感情共音声3Dジェスチャーを実現することが実証された。我々のコードとデータセットはプロジェクトページで公開される予定である: https://xingqunqi-lab.github.io/Emotion-Gesture-Web/
要約(オリジナル)
Generating vivid and diverse 3D co-speech gestures is crucial for various applications in animating virtual avatars. While most existing methods can generate gestures from audio directly, they usually overlook that emotion is one of the key factors of authentic co-speech gesture generation. In this work, we propose EmotionGesture, a novel framework for synthesizing vivid and diverse emotional co-speech 3D gestures from audio. Considering emotion is often entangled with the rhythmic beat in speech audio, we first develop an Emotion-Beat Mining module (EBM) to extract the emotion and audio beat features as well as model their correlation via a transcript-based visual-rhythm alignment. Then, we propose an initial pose based Spatial-Temporal Prompter (STP) to generate future gestures from the given initial poses. STP effectively models the spatial-temporal correlations between the initial poses and the future gestures, thus producing the spatial-temporal coherent pose prompt. Once we obtain pose prompts, emotion, and audio beat features, we will generate 3D co-speech gestures through a transformer architecture. However, considering the poses of existing datasets often contain jittering effects, this would lead to generating unstable gestures. To address this issue, we propose an effective objective function, dubbed Motion-Smooth Loss. Specifically, we model motion offset to compensate for jittering ground-truth by forcing gestures to be smooth. Last, we present an emotion-conditioned VAE to sample emotion features, enabling us to generate diverse emotional results. Extensive experiments demonstrate that our framework outperforms the state-of-the-art, achieving vivid and diverse emotional co-speech 3D gestures. Our code and dataset will be released at the project page: https://xingqunqi-lab.github.io/Emotion-Gesture-Web/
arxiv情報
著者 | Xingqun Qi,Chen Liu,Lincheng Li,Jie Hou,Haoran Xin,Xin Yu |
発行日 | 2024-01-03 06:55:36+00:00 |
arxivサイト | arxiv_id(pdf) |