Toward a Dialogue System Using a Large Language Model to Recognize User Emotions with a Camera

要約

ChatGPT\copyright{} やその他の LLM のパフォーマンスは大幅に向上しており、オンライン環境では、Web ページ上の ChatBot、音声対話を使用したコールセンターの運営、対話など、さまざまな状況で使用される可能性がますます高まっています。
エージェントを使用した機能。
オフライン環境においても、タブレット端末を用いた人工知能エージェント(AIエージェント)による誘導や、ロボットに搭載されたLLMによる対話システムなど、マルチモーダルな対話機能の実現が進んでいます。
このマルチモーダルな対話においては、AIとユーザーの相互の感情認識が重要になります。
これまで、AIエージェント側で感情を表現したり、ユーザーの発話の文字情報や音声情報を用いて感情を認識したりする手法はあったが、AIエージェントがユーザーの表情から感情を認識する手法は研究されていなかった。
本研究では、LLMベースのAIエージェントが、対話中のユーザーをカメラで撮影し、顔の表情から感情を認識し、その感情情報をプロンプトに追加することで、ユーザーの感情状態に応じた対話ができるかどうかを検証しました。
その結果、幸福や怒りといった比較的スコアの高い感情状態については、AIエージェントが感情状態に応じた会話ができることが確認された。

要約(オリジナル)

The performance of ChatGPT\copyright{} and other LLMs has improved tremendously, and in online environments, they are increasingly likely to be used in a wide variety of situations, such as ChatBot on web pages, call center operations using voice interaction, and dialogue functions using agents. In the offline environment, multimodal dialogue functions are also being realized, such as guidance by Artificial Intelligence agents (AI agents) using tablet terminals and dialogue systems in the form of LLMs mounted on robots. In this multimodal dialogue, mutual emotion recognition between the AI and the user will become important. So far, there have been methods for expressing emotions on the part of the AI agent or for recognizing them using textual or voice information of the user’s utterances, but methods for AI agents to recognize emotions from the user’s facial expressions have not been studied. In this study, we examined whether or not LLM-based AI agents can interact with users according to their emotional states by capturing the user in dialogue with a camera, recognizing emotions from facial expressions, and adding such emotion information to prompts. The results confirmed that AI agents can have conversations according to the emotional state for emotional states with relatively high scores, such as Happy and Angry.

arxiv情報

著者 Hiroki Tanioka,Tetsushi Ueta,Masahiko Sano
発行日 2024-08-15 07:03:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T40, cs.AI, cs.HC, cs.RO, I.2.10 パーマリンク