Chain of Generation: Multi-Modal Gesture Synthesis via Cascaded Conditional Control

要約

この研究は、人間の音声からのマルチモーダル情報を利用して 3D ジェスチャの生成を改善することを目的としています。
これまでの研究は、生成されるジェスチャの品質を向上させるために追加のモダリティを組み込むことに焦点を当てていました。
ただし、これらの方法は、推論中に特定のモダリティが欠落している場合、パフォーマンスが低下します。
この問題に対処するには、音声由来のマルチモーダル事前分布を使用してジェスチャ生成を改善することをお勧めします。
音声から事前分布を分離し、ジェスチャを生成するための制約としてマルチモーダル事前分布を使用する新しい方法を導入します。
私たちのアプローチでは、チェーン状のモデリング手法を利用して、顔のブレンドシェイプ、体の動き、手のジェスチャーを順番に生成します。
具体的には、発話感情に基づいて事前に顔の変形と様式化から得られたリズム キューを、ジェスチャーを生成するプロセスに組み込みます。
マルチモーダル事前分布を組み込むことにより、私たちの方法は生成されるジェスチャの品質を向上させ、推論中の高価なセットアップの準備の必要性を排除します。
広範な実験とユーザー調査により、私たちが提案したアプローチが最先端のパフォーマンスを達成することが確認されています。

要約(オリジナル)

This study aims to improve the generation of 3D gestures by utilizing multimodal information from human speech. Previous studies have focused on incorporating additional modalities to enhance the quality of generated gestures. However, these methods perform poorly when certain modalities are missing during inference. To address this problem, we suggest using speech-derived multimodal priors to improve gesture generation. We introduce a novel method that separates priors from speech and employs multimodal priors as constraints for generating gestures. Our approach utilizes a chain-like modeling method to generate facial blendshapes, body movements, and hand gestures sequentially. Specifically, we incorporate rhythm cues derived from facial deformation and stylization prior based on speech emotions, into the process of generating gestures. By incorporating multimodal priors, our method improves the quality of generated gestures and eliminate the need for expensive setup preparation during inference. Extensive experiments and user studies confirm that our proposed approach achieves state-of-the-art performance.

arxiv情報

著者 Zunnan Xu,Yachao Zhang,Sicheng Yang,Ronghui Li,Xiu Li
発行日 2023-12-26 06:30:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク