要約
大規模言語モデル (LLM) の出現により、感情認識や共感的応答などの分野で人間を超えることができるかどうかを調査することが研究の焦点になっています。
この論文では、GPT-4、LLaMA-2-70B-Chat、Gemini-1.0-Pro、Mixtral-8x7B-Instruct の 4 つの最先端の LLM の共感的応答能力を調査した包括的な研究を紹介します。
人間のベースライン。
私たちは、1,000 人の参加者を被験者間のユーザー調査に参加させ、32 の異なるポジティブおよびネガティブな感情の広範囲をカバーするために細心の注意を払って選択された 2,000 の感情的対話プロンプトに対して、人間と 4 つの LLM によって生成される応答の共感の質を評価しました。
私たちの発見は、LLMの共感的反応能力が人間よりも統計的に有意に優れていることを明らかにしました。
GPT-4 は最も共感性が高いものとして浮上し、人間のベンチマークと比較して「良い」と評価された回答が約 31% 増加しました。
これに LLaMA-2、Mixtral-8x7B、Gemini-Pro が続き、「良い」評価がそれぞれ約 24%、21%、10% 増加しました。
さらに、より細かい粒度で反応評価を分析したところ、一部の LLM は他の LLM に比べて特定の感情への反応が著しく優れていることがわかりました。
提案された評価フレームワークは、新しい LLM の共感を評価するための拡張性と適応性のあるアプローチを提供し、将来の研究でこの研究の結果を再現する必要を回避します。
要約(オリジナル)
With the emergence of large language models (LLMs), investigating if they can surpass humans in areas such as emotion recognition and empathetic responding has become a focal point of research. This paper presents a comprehensive study exploring the empathetic responding capabilities of four state-of-the-art LLMs: GPT-4, LLaMA-2-70B-Chat, Gemini-1.0-Pro, and Mixtral-8x7B-Instruct in comparison to a human baseline. We engaged 1,000 participants in a between-subjects user study, assessing the empathetic quality of responses generated by humans and the four LLMs to 2,000 emotional dialogue prompts meticulously selected to cover a broad spectrum of 32 distinct positive and negative emotions. Our findings reveal a statistically significant superiority of the empathetic responding capability of LLMs over humans. GPT-4 emerged as the most empathetic, marking approximately 31% increase in responses rated as ‘Good’ compared to the human benchmark. It was followed by LLaMA-2, Mixtral-8x7B, and Gemini-Pro, which showed increases of approximately 24%, 21%, and 10% in ‘Good’ ratings, respectively. We further analyzed the response ratings at a finer granularity and discovered that some LLMs are significantly better at responding to specific emotions compared to others. The suggested evaluation framework offers a scalable and adaptable approach for assessing the empathy of new LLMs, avoiding the need to replicate this study’s findings in future research.
arxiv情報
著者 | Anuradha Welivita,Pearl Pu |
発行日 | 2024-06-07 16:33:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google