SARGes: Semantically Aligned Reliable Gesture Generation via Intent Chain

要約

共音声ジェスチャーの生成は、音声同期されたジェスチャー合成を通じて、人間のコンピューターの相互作用リアリズムを強化します。
ただし、意味的に意味のあるジェスチャーを生成することは依然として困難な問題です。
大規模な言語モデル(LLM)を活用して音声コンテンツを解析し、信頼できるセマンティックジェスチャーラベルを生成する新しいフレームワークであるSargesを提案します。これは、意味のある共発発物のジェスチャーの統合を導きます。
基準、事実上、LLMSをガイドして、コンテキスト対応ジェスチャーラベルを生成します。
その後、意図的なチェーンが発射されたテキストからグゼステルのラベルデータセットを構築し、軽量のジェスチャーラベル生成モデルを訓練し、信頼できる、意味的に一貫した共同スピーチジェスチャーの生成を導きました。
実験結果は、Sargesが効率的なシングルパス推論(0.4秒)で非常に半分整列したジェスチャーラベル(50.2%の精度)を達成することを示しています。
提案された方法は、セマンティックジェスチャー合成のための解釈可能な意図推論経路を提供します。

要約(オリジナル)

Co-speech gesture generation enhances human-computer interaction realism through speech-synchronized gesture synthesis. However, generating semantically meaningful gestures remains a challenging problem. We propose SARGes, a novel framework that leverages large language models (LLMs) to parse speech content and generate reliable semantic gesture labels, which subsequently guide the synthesis of meaningful co-speech gestures.First, we constructed a comprehensive co-speech gesture ethogram and developed an LLM-based intent chain reasoning mechanism that systematically parses and decomposes gesture semantics into structured inference steps following ethogram criteria, effectively guiding LLMs to generate context-aware gesture labels. Subsequently, we constructed an intent chain-annotated text-to-gesture label dataset and trained a lightweight gesture label generation model, which then guides the generation of credible and semantically coherent co-speech gestures. Experimental results demonstrate that SARGes achieves highly semantically-aligned gesture labeling (50.2% accuracy) with efficient single-pass inference (0.4 seconds). The proposed method provides an interpretable intent reasoning pathway for semantic gesture synthesis.

arxiv情報

著者 Nan Gao,Yihua Bao,Dongdong Weng,Jiayi Zhao,Jia Li,Yan Zhou,Pengfei Wan,Di Zhang
発行日 2025-03-26 03:55:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC, cs.RO パーマリンク