SemTalk: Holistic Co-speech Motion Generation with Frame-level Semantic Emphasis

要約

良好な共同音声動作生成は、一般的なリズミカルな動作と、まれではあるが不可欠な意味論的な動作を注意深く統合することなしには達成できません。
この研究では、フレームレベルのセマンティックを重視した全体的な同時音声モーション生成のための SemTalk を提案します。
私たちの重要な洞察は、一般的な動きとまばらな動きを別々に学習し、それらを適応的に融合することです。
特に、リズムの一貫性学習は、リズムに関連した基本動作を確立し、ジェスチャーと音声のリズムを同期させる首尾一貫した基盤を確保するために研究されています。
その後、textit{意味論的強調学習は、フレームレベルの意味論的手がかりに焦点を当て、意味論を意識したまばらな動きを生成するように設計されています。
最後に、まばらなモーションをベース モーションに統合し、セマンティックを強調した同時音声ジェスチャを生成するために、学習したセマンティック スコアを適応合成にさらに活用します。
2 つの公開データセットの定性的および定量的比較により、私たちの方法が最先端の方法を上回っており、安定したベース モーションよりも強化された意味論的豊かさを備えた高品質の同時音声モーションを実現できることが実証されています。

要約(オリジナル)

A good co-speech motion generation cannot be achieved without a careful integration of common rhythmic motion and rare yet essential semantic motion. In this work, we propose SemTalk for holistic co-speech motion generation with frame-level semantic emphasis. Our key insight is to separately learn general motions and sparse motions, and then adaptively fuse them. In particular, rhythmic consistency learning is explored to establish rhythm-related base motion, ensuring a coherent foundation that synchronizes gestures with the speech rhythm. Subsequently, textit{semantic emphasis learning is designed to generate semantic-aware sparse motion, focusing on frame-level semantic cues. Finally, to integrate sparse motion into the base motion and generate semantic-emphasized co-speech gestures, we further leverage a learned semantic score for adaptive synthesis. Qualitative and quantitative comparisons on two public datasets demonstrate that our method outperforms the state-of-the-art, delivering high-quality co-speech motion with enhanced semantic richness over a stable base motion.

arxiv情報

著者 Xiangyue Zhang,Jianfang Li,Jiaxu Zhang,Ziqiang Dang,Jianqiang Ren,Liefeng Bo,Zhigang Tu
発行日 2025-01-15 13:34:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク