要約
共音声ジェスチャーの生成は、音声同期されたジェスチャー合成を通じて、人間のコンピューターの相互作用リアリズムを強化します。
ただし、意味的に意味のあるジェスチャーを生成することは依然として困難な問題です。
大規模な言語モデル(LLM)を活用して音声コンテンツを解析し、信頼できるセマンティックジェスチャーラベルを生成する新しいフレームワークであるSargesを提案します。これは、意味のある共発発物のジェスチャーの統合を導きます。
基準、事実上、LLMSをガイドして、コンテキスト対応ジェスチャーラベルを生成します。
その後、意図的なチェーンが発射されたテキストからグゼステルのラベルデータセットを構築し、軽量のジェスチャーラベル生成モデルを訓練し、信頼できる、意味的に一貫した共同スピーチジェスチャーの生成を導きました。
実験結果は、Sargesが効率的なシングルパス推論(0.4秒)で非常に半分整列したジェスチャーラベル(50.2%の精度)を達成することを示しています。
提案された方法は、セマンティックジェスチャー合成のための解釈可能な意図推論経路を提供します。
要約(オリジナル)
Co-speech gesture generation enhances human-computer interaction realism through speech-synchronized gesture synthesis. However, generating semantically meaningful gestures remains a challenging problem. We propose SARGes, a novel framework that leverages large language models (LLMs) to parse speech content and generate reliable semantic gesture labels, which subsequently guide the synthesis of meaningful co-speech gestures.First, we constructed a comprehensive co-speech gesture ethogram and developed an LLM-based intent chain reasoning mechanism that systematically parses and decomposes gesture semantics into structured inference steps following ethogram criteria, effectively guiding LLMs to generate context-aware gesture labels. Subsequently, we constructed an intent chain-annotated text-to-gesture label dataset and trained a lightweight gesture label generation model, which then guides the generation of credible and semantically coherent co-speech gestures. Experimental results demonstrate that SARGes achieves highly semantically-aligned gesture labeling (50.2% accuracy) with efficient single-pass inference (0.4 seconds). The proposed method provides an interpretable intent reasoning pathway for semantic gesture synthesis.
arxiv情報
著者 | Nan Gao,Yihua Bao,Dongdong Weng,Jiayi Zhao,Jia Li,Yan Zhou,Pengfei Wan,Di Zhang |
発行日 | 2025-03-26 03:55:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google