SpeechAct: Towards Generating Whole-body Motion from Speech

要約

本稿では、音声から全身運動を生成する問題を取り上げる。大きな成功を収めたにもかかわらず、先行する手法は音声から合理的で多様な全身運動を生成するのに苦労している。これは、最適でない表現に依存していることと、多様な結果を生成するための戦略が欠如していることが原因である。これらの課題に対処するために、我々は、例えば足のスケーティングを回避するような、正確で連続的なモーション生成を達成するための新しいハイブリッド点表現を提示し、この表現は、多くのアプリケーションのために、使いやすい表現、すなわちSMPL-Xボディメッシュに変換することができる。音声から全身の動きを生成するために、音声信号と密接に結びついた顔の動きについては、エンコーダ・デコーダのアーキテクチャを導入し、決定論的な結果を得る。しかし、音声信号との結びつきが弱い体や手については、多様かつ合理的なモーションを生成することを目指す。モーション生成の多様性を高めるために、我々は、モデルがより特徴的な表現を生成するように促す、対照的なモーション学習法を提案する。具体的には、ハイブリッド表現を用いて量子化されたモーションコードブックを学習するために、ロバストなVQ-VAEを設計する。次に、この対照的な動き学習法を用いた翻訳モデルにより、音声信号から動き表現を回帰する。実験の結果、我々のモデルの優れた性能と正しさが検証された。プロジェクトページは研究目的でhttp://cic.tju.edu.cn/faculty/likun/projects/SpeechAct。

要約(オリジナル)

This paper addresses the problem of generating whole-body motion from speech. Despite great successes, prior methods still struggle to produce reasonable and diverse whole-body motions from speech. This is due to their reliance on suboptimal representations and a lack of strategies for generating diverse results. To address these challenges, we present a novel hybrid point representation to achieve accurate and continuous motion generation, e.g., avoiding foot skating, and this representation can be transformed into an easy-to-use representation, i.e., SMPL-X body mesh, for many applications. To generate whole-body motion from speech, for facial motion, closely tied to the audio signal, we introduce an encoder-decoder architecture to achieve deterministic outcomes. However, for the body and hands, which have weaker connections to the audio signal, we aim to generate diverse yet reasonable motions. To boost diversity in motion generation, we propose a contrastive motion learning method to encourage the model to produce more distinctive representations. Specifically, we design a robust VQ-VAE to learn a quantized motion codebook using our hybrid representation. Then, we regress the motion representation from the audio signal by a translation model employing our contrastive motion learning method. Experimental results validate the superior performance and the correctness of our model. The project page is available for research purposes at http://cic.tju.edu.cn/faculty/likun/projects/SpeechAct.

arxiv情報

著者 Jinsong Zhang,Minjie Zhu,Yuxiang Zhang,Yebin Liu,Kun Li
発行日 2024-06-03 11:58:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク