Probing Language Models’ Gesture Understanding for Enhanced Human-AI Interaction

要約

大規模言語モデル (LLM) の台頭は、単なるテキスト生成を超えたさまざまな分野に影響を与えました。
このプロジェクト提案は、テキストの性質を超えて、特にジェスチャーに焦点を当てて、LLM と非言語コミュニケーションの間の相互作用を調査することを目的としています。
この提案では、テキストプロンプト内の明示的および暗黙的な非言語的合図の両方を解読するLLMの熟練度、およびこれらのジェスチャーをさまざまな文脈的要因と関連付ける能力を調査する計画が示されています。
この研究では、確立された心理言語学的研究デザインをテストして、テキストによるプロンプトと詳細なジェスチャーの説明を組み合わせた、多様な地域的差異と意味ラベルを含む包括的なデータセットを構築することを提案しています。
LLM のジェスチャーの理解を評価するために、心理言語実験を再現するために人間の行動をシミュレートする能力を評価する実験が計画されています。
これらの実験は文化的側面を考慮し、LLM で識別されたジェスチャーとデータセットの間の一致を測定し、非言語的合図 (ジェスチャーなど) のモデルの文脈上の解釈に光を当てます。

要約(オリジナル)

The rise of Large Language Models (LLMs) has affected various disciplines that got beyond mere text generation. Going beyond their textual nature, this project proposal aims to investigate the interaction between LLMs and non-verbal communication, specifically focusing on gestures. The proposal sets out a plan to examine the proficiency of LLMs in deciphering both explicit and implicit non-verbal cues within textual prompts and their ability to associate these gestures with various contextual factors. The research proposes to test established psycholinguistic study designs to construct a comprehensive dataset that pairs textual prompts with detailed gesture descriptions, encompassing diverse regional variations, and semantic labels. To assess LLMs’ comprehension of gestures, experiments are planned, evaluating their ability to simulate human behaviour in order to replicate psycholinguistic experiments. These experiments consider cultural dimensions and measure the agreement between LLM-identified gestures and the dataset, shedding light on the models’ contextual interpretation of non-verbal cues (e.g. gestures).

arxiv情報

著者 Philipp Wicke
発行日 2024-01-31 14:19:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク