Weakly-Supervised Emotion Transition Learning for Diverse 3D Co-speech Gesture Generation

要約

鮮やかで感情的な 3D 共同音声ジェスチャを生成することは、ヒューマン マシン インタラクション アプリケーションにおける仮想アバター アニメーションにとって非常に重要です。
既存の方法では、単一の感情ラベルに従うジェスチャを生成できますが、実際のシーンでは、感情遷移を伴う長いジェスチャ シーケンス モデリングの方がより実用的であることが見落とされています。
さらに、感情遷移音声と対応する 3D 人間のジェスチャーを含む大規模な利用可能なデータセットが不足していることも、このタスクへの取り組みを制限します。
この目標を達成するために、まず ChatGPT-4 とオーディオ修復アプローチを組み込んで、忠実度の高い感情遷移の人間の音声を構築します。
動的に描画された感情遷移オーディオに対応する現実的な 3D ポーズの注釈を取得することは非常に困難であることを考慮して、権限のあるジェスチャの遷移を促進するための新しい弱教師トレーニング戦略を提案します。
具体的には、さまざまな感情ジェスチャに関するトランジション ジェスチャの調整を強化するために、2 つの異なる感情ジェスチャ シーケンス間の時間的関連表現をスタイル ガイダンスとしてモデル化し、それをトランジション生成に注入します。
さらに、遷移ジェスチャに対する学習可能な混合感情ラベルに基づいて弱い監視を提供する感情混合メカニズムを考案します。
最後に、長いシーケンスで効果的な初期姿勢キューを提供し、多様なジェスチャを生成できるようにするキーフレーム サンプラーを紹介します。
広範な実験により、私たちの方法が、新しく定義された感情遷移タスクとデータセットに単一の感情条件付けされた対応物を適応させることによって構築された最先端のモデルよりも優れていることが実証されました。
コードとデータセットはプロジェクト ページ https://xingqunqi-lab.github.io/Emo-Transition-Gesture/ でリリースされます。

要約(オリジナル)

Generating vivid and emotional 3D co-speech gestures is crucial for virtual avatar animation in human-machine interaction applications. While the existing methods enable generating the gestures to follow a single emotion label, they overlook that long gesture sequence modeling with emotion transition is more practical in real scenes. In addition, the lack of large-scale available datasets with emotional transition speech and corresponding 3D human gestures also limits the addressing of this task. To fulfill this goal, we first incorporate the ChatGPT-4 and an audio inpainting approach to construct the high-fidelity emotion transition human speeches. Considering obtaining the realistic 3D pose annotations corresponding to the dynamically inpainted emotion transition audio is extremely difficult, we propose a novel weakly supervised training strategy to encourage authority gesture transitions. Specifically, to enhance the coordination of transition gestures w.r.t different emotional ones, we model the temporal association representation between two different emotional gesture sequences as style guidance and infuse it into the transition generation. We further devise an emotion mixture mechanism that provides weak supervision based on a learnable mixed emotion label for transition gestures. Last, we present a keyframe sampler to supply effective initial posture cues in long sequences, enabling us to generate diverse gestures. Extensive experiments demonstrate that our method outperforms the state-of-the-art models constructed by adapting single emotion-conditioned counterparts on our newly defined emotion transition task and datasets. Our code and dataset will be released on the project page: https://xingqunqi-lab.github.io/Emo-Transition-Gesture/.

arxiv情報

著者 Xingqun Qi,Jiahao Pan,Peng Li,Ruibin Yuan,Xiaowei Chi,Mengfei Li,Wenhan Luo,Wei Xue,Shanghang Zhang,Qifeng Liu,Yike Guo
発行日 2024-03-27 15:01:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク