Large Language Models Understand and Can be Enhanced by Emotional Stimuli

要約

心の知能指数は、私たちの日常の行動や交流に大きな影響を与えます。
大規模言語モデル (LLM) は、多くのタスクで優れたパフォーマンスを示し、汎用人工知能への進歩としてますます見なされていますが、LLM が心理的感情的刺激を真に把握できるかどうかは依然として不確実です。
感情的な合図を理解し、それに反応することで、人間は問題解決において明らかな優位性を得ることができます。
この論文では、LLM の感情的刺激を理解する能力を探求するための第一歩を踏み出します。
この目的を達成するために、まず、Flan-T5-Large、Vicuna、Llama 2、BLOOM、ChatGPT、GPT-4 などのさまざまな LLM を使用して 45 のタスクの自動実験を実行します。
私たちのタスクは、包括的な評価シナリオを表す決定論的アプリケーションと生成的アプリケーションに及びます。
私たちの自動実験では、LLM が感情的知性を把握しており、感情的なプロンプト (元のプロンプトと感情的な刺激を組み合わせたものを「EmotionPrompt」と呼んでいます) によってパフォーマンスを向上させることができることを示しています。たとえば、指導誘導および感情刺激で 8.00% の相対的なパフォーマンスの向上が見られます。
BIGベンチでは115%。
既存の指標を使用して自動的に評価できる決定論的なタスクに加えて、バニラと感情的なプロンプトの両方を使用して生成タスクの品質を評価するために、106 人の参加者を対象とした人体研究を実施しました。
私たちの人間による研究結果は、EmotionPrompt が生成タスクのパフォーマンスを大幅に向上させることを示しています (パフォーマンス、誠実さ、責任の指標に関して平均 10.9% の向上)。
EmotionPrompt が LLM で機能する理由と、そのパフォーマンスに影響を与える可能性のある要因について詳しく説明します。
私たちは、EmotionPrompt が人間と LLM の相互作用に関する学際的な知識を探求するための新しい手段の先駆けとなると考えています。

要約(オリジナル)

Emotional intelligence significantly impacts our daily behaviors and interactions. Although Large Language Models (LLMs) are increasingly viewed as a stride toward artificial general intelligence, exhibiting impressive performance in numerous tasks, it is still uncertain if LLMs can genuinely grasp psychological emotional stimuli. Understanding and responding to emotional cues gives humans a distinct advantage in problem-solving. In this paper, we take the first step towards exploring the ability of LLMs to understand emotional stimuli. To this end, we first conduct automatic experiments on 45 tasks using various LLMs, including Flan-T5-Large, Vicuna, Llama 2, BLOOM, ChatGPT, and GPT-4. Our tasks span deterministic and generative applications that represent comprehensive evaluation scenarios. Our automatic experiments show that LLMs have a grasp of emotional intelligence, and their performance can be improved with emotional prompts (which we call ‘EmotionPrompt’ that combines the original prompt with emotional stimuli), e.g., 8.00% relative performance improvement in Instruction Induction and 115% in BIG-Bench. In addition to those deterministic tasks that can be automatically evaluated using existing metrics, we conducted a human study with 106 participants to assess the quality of generative tasks using both vanilla and emotional prompts. Our human study results demonstrate that EmotionPrompt significantly boosts the performance of generative tasks (10.9% average improvement in terms of performance, truthfulness, and responsibility metrics). We provide an in-depth discussion regarding why EmotionPrompt works for LLMs and the factors that may influence its performance. We posit that EmotionPrompt heralds a novel avenue for exploring interdisciplinary knowledge for human-LLMs interaction.

arxiv情報

著者 Cheng Li,Jindong Wang,Yixuan Zhang,Kaijie Zhu,Wenxin Hou,Jianxun Lian,Fang Luo,Qiang Yang,Xing Xie
発行日 2023-09-20 15:46:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC パーマリンク