要約
共同スピーチのジェスチャーは、さまざまな意味を伝え、対面の人間の相互作用において重要な役割を果たします。
これらのジェスチャーは、スピーカーに対する宛先、想起、理解、態度に著しく影響を与えます。
同様に、それらは人間と具体化された仮想エージェント間の相互作用に影響を与えます。
したがって、意味のあるジェスチャーを選択してアニメーション化するプロセスは、これらのエージェントの設計に重要な焦点となっています。
ただし、このジェスチャー選択プロセスを自動化することは、大きな課題をもたらします。
以前のジェスチャーの生成技術は、完全に自動化されたデータ駆動型の方法から、文脈的に意味のあるジェスチャーを作成するのに苦労していることが多い、特定のジェスチャーの専門知識を作成し、時間がかかり、一般化が欠けているより手動アプローチまで、さまざまです。
このホワイトペーパーでは、大規模な言語モデルのセマンティック機能を活用して、意味のある適切な共発発点ジェスチャーを示唆するジェスチャー選択アプローチを開発します。
最初に、ジェスチャーに関する情報がGPT-4にエンコードされる方法について説明します。
次に、意味のある、文脈的に関連するジェスチャーを選択し、共同スピーチの発話に適切に整列する能力について、代替プロンプトのアプローチを評価するための研究を実施します。
最後に、このアプローチが仮想エージェントシステム内でどのように実装されているかを詳述し、実証し、選択したジェスチャーの選択とその後のアニメーションを自動化して、ヒトとエージェントの相互作用を強化します。
要約(オリジナル)
Co-speech gestures convey a wide variety of meanings and play an important role in face-to-face human interactions. These gestures significantly influence the addressee’s engagement, recall, comprehension, and attitudes toward the speaker. Similarly, they impact interactions between humans and embodied virtual agents. The process of selecting and animating meaningful gestures has thus become a key focus in the design of these agents. However, automating this gesture selection process poses a significant challenge. Prior gesture generation techniques have varied from fully automated, data-driven methods, which often struggle to produce contextually meaningful gestures, to more manual approaches that require crafting specific gesture expertise and are time-consuming and lack generalizability. In this paper, we leverage the semantic capabilities of Large Language Models to develop a gesture selection approach that suggests meaningful, appropriate co-speech gestures. We first describe how information on gestures is encoded into GPT-4. Then, we conduct a study to evaluate alternative prompting approaches for their ability to select meaningful, contextually relevant gestures and to align them appropriately with the co-speech utterance. Finally, we detail and demonstrate how this approach has been implemented within a virtual agent system, automating the selection and subsequent animation of the selected gestures for enhanced human-agent interactions.
arxiv情報
著者 | Parisa Ghanad Torshizi,Laura B. Hensel,Ari Shapiro,Stacy C. Marsella |
発行日 | 2025-03-18 16:49:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google