Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench

要約

最近、コミュニティは大規模言語モデル (LLM) の進歩を目の当たりにし、さまざまなダウンストリーム タスクで顕著なパフォーマンスを示しています。
ChatGPT や Claude などの強力なモデルに率いられた LLM は、単なるツールではなくインテリジェントなアシスタントを想定し、ユーザーがソフトウェアに関わる方法に革命をもたらしています。
その結果、LLM の擬人化能力を評価することは、現代の言説においてますます重要になっています。
心理学の感情評価理論を利用して、LLM の共感能力、つまり特定の状況にさらされたときに感情がどのように変化するかを評価することを提案します。
注意深く包括的な調査を行った後、私たちは、研究の中心となる 8 つの感情を引き出すのに効果的であることが証明された 400 を超える状況を含むデータセットを収集しました。
状況を36の要素に分類し、世界中で1,200人以上の被験者による人的評価を実施します。
人間による評価結果を参考として、私たちの評価には 5 つの LLM が含まれており、商用モデルとオープンソース モデルの両方をカバーしており、モデル サイズのバリエーションも含め、GPT-4 や LLaMA 2 などの最新のイテレーションを特徴としています。
その結果、いくつかの不整合にもかかわらず、LLM は通常、特定の状況に適切に対応できることがわかりました。
それにもかかわらず、それらは人間の感情的な行動との整合性が不十分であり、同様の状況間のつながりを確立することができません。
私たちが収集した状況のデータセット、人による評価結果、および EmotionBench と呼ばれるテスト フレームワークのコードは、https://github.com/CUHK-ARISE/EmotionBench で公開されています。
私たちは、人間の感情的な行動とのより良い調和に関して LLM の進歩に貢献し、それによってインテリジェントなアシスタントとしての有用性と適用性を高めることを目指しています。

要約(オリジナル)

Recently, the community has witnessed the advancement of Large Language Models (LLMs), which have shown remarkable performance on various downstream tasks. Led by powerful models like ChatGPT and Claude, LLMs are revolutionizing how users engage with software, assuming more than mere tools but intelligent assistants. Consequently, evaluating LLMs’ anthropomorphic capabilities becomes increasingly important in contemporary discourse. Utilizing the emotion appraisal theory from psychology, we propose to evaluate the empathy ability of LLMs, i.e., how their feelings change when presented with specific situations. After a careful and comprehensive survey, we collect a dataset containing over 400 situations that have proven effective in eliciting the eight emotions central to our study. Categorizing the situations into 36 factors, we conduct a human evaluation involving more than 1,200 subjects worldwide. With the human evaluation results as references, our evaluation includes five LLMs, covering both commercial and open-source models, including variations in model sizes, featuring the latest iterations, such as GPT-4 and LLaMA 2. A conclusion can be drawn from the results that, despite several misalignments, LLMs can generally respond appropriately to certain situations. Nevertheless, they fall short in alignment with the emotional behaviors of human beings and cannot establish connections between similar situations. Our collected dataset of situations, the human evaluation results, and the code of our testing framework, dubbed EmotionBench, is made publicly in https://github.com/CUHK-ARISE/EmotionBench. We aspire to contribute to the advancement of LLMs regarding better alignment with the emotional behaviors of human beings, thereby enhancing their utility and applicability as intelligent assistants.

arxiv情報

著者 Jen-tse Huang,Man Ho Lam,Eric John Li,Shujie Ren,Wenxuan Wang,Wenxiang Jiao,Zhaopeng Tu,Michael R. Lyu
発行日 2023-11-16 16:04:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク