要約
音声駆動型のジェスチャ生成は、入力音声信号と同期したジェスチャ シーケンスを合成することを目的としています。
これまでの方法では、ニューラル ネットワークを利用してコンパクトな音声表現をジェスチャ シーケンスに直接マッピングしていましたが、さまざまなモダリティの意味論的な関連付けが無視され、顕著なジェスチャに対処できませんでした。
本稿では、顕著な姿勢の意味的一貫性を強調することにより、新しい音声駆動型ジェスチャ生成方法を提案する。
具体的には、最初にオーディオと体のポーズの個々の表現のための結合多様体空間を学習して、2 つのモダリティ間の固有の意味的関連性を利用し、一貫性の喪失を通じて意味的一貫性を強制することを提案します。
さらに、顕著な姿勢を識別するために弱く監視された検出器を導入し、顕著な姿勢と音声コンテンツの高レベルの意味論との間の対応関係を学習することにさらに重点を置くために一貫性の損失を再重み付けることによって、顕著な姿勢の意味的一貫性を強調します。
さらに、顔の表情と体のジェスチャー専用のオーディオ特徴を個別に抽出し、顔と体のジェスチャーの合成用に別々のブランチを設計することを提案します。
広範な実験結果は、最先端のアプローチに対する私たちの方法の優位性を実証しています。
要約(オリジナル)
Speech-driven gesture generation aims at synthesizing a gesture sequence synchronized with the input speech signal. Previous methods leverage neural networks to directly map a compact audio representation to the gesture sequence, ignoring the semantic association of different modalities and failing to deal with salient gestures. In this paper, we propose a novel speech-driven gesture generation method by emphasizing the semantic consistency of salient posture. Specifically, we first learn a joint manifold space for the individual representation of audio and body pose to exploit the inherent semantic association between two modalities, and propose to enforce semantic consistency via a consistency loss. Furthermore, we emphasize the semantic consistency of salient postures by introducing a weakly-supervised detector to identify salient postures, and reweighting the consistency loss to focus more on learning the correspondence between salient postures and the high-level semantics of speech content. In addition, we propose to extract audio features dedicated to facial expression and body gesture separately, and design separate branches for face and body gesture synthesis. Extensive experimental results demonstrate the superiority of our method over the state-of-the-art approaches.
arxiv情報
著者 | Fengqi Liu,Hexiang Wang,Jingyu Gong,Ran Yi,Qianyu Zhou,Xuequan Lu,Jiangbo Lu,Lizhuang Ma |
発行日 | 2024-10-17 17:22:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google