要約
言語学の研究では、ジェスチャーなどの非言語的手がかりが話し言葉において重要な役割を果たすことが示されています。
たとえば、スピーカーはハンドジェスチャーを実行してトピックシフトを示し、リスナーが談話の移行を特定するのに役立ちます。
この作業では、人間の動きシーケンスと言語を使用したジェスチャーの共同モデリングが、言語モデルの音声談話モデリングを改善できるかどうかを調査します。
ジェスチャーを言語モデルに統合するために、最初に3Dヒトの動きシーケンスをVQ-Vaeを使用して離散ジェスチャートークンにエンコードします。
これらのジェスチャートークンの埋め込みは、機能アラインメントを介してテキストの埋め込みと整列し、テキストの埋め込みスペースにマッピングします。
話し言葉に関するジェスチャーに合わせた言語モデルを評価するために、言語研究に基づいた3つの重要な談話の手がかりをターゲットにしたテキスト充填タスクを構築します。
結果は、ジェスチャーを組み込むことで、3つのタスク全体でマーカー予測の精度が向上し、モデリングの談話でジェスチャーが提供できる補完的な情報を強調することを示しています。
この作業は、言語モデルの音声言語モデリングを進めるために、非言語的手がかりを活用するための最初のステップと考えています。
要約(オリジナル)
Research in linguistics shows that non-verbal cues, such as gestures, play a crucial role in spoken discourse. For example, speakers perform hand gestures to indicate topic shifts, helping listeners identify transitions in discourse. In this work, we investigate whether the joint modeling of gestures using human motion sequences and language can improve spoken discourse modeling in language models. To integrate gestures into language models, we first encode 3D human motion sequences into discrete gesture tokens using a VQ-VAE. These gesture token embeddings are then aligned with text embeddings through feature alignment, mapping them into the text embedding space. To evaluate the gesture-aligned language model on spoken discourse, we construct text infilling tasks targeting three key discourse cues grounded in linguistic research: discourse connectives, stance markers, and quantifiers. Results show that incorporating gestures enhances marker prediction accuracy across the three tasks, highlighting the complementary information that gestures can offer in modeling spoken discourse. We view this work as an initial step toward leveraging non-verbal cues to advance spoken language modeling in language models.
arxiv情報
著者 | Varsha Suresh,M. Hamza Mughal,Christian Theobalt,Vera Demberg |
発行日 | 2025-03-05 13:10:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google