要約
大規模言語モデル (LLM) は、主に言語生成、知識利用、および複雑な推論のタスクを通じて評価される、多数の分野にわたって顕著な能力を実証しています。
しかし、現実世界のアプリケーションにとって重要な、人間の感情や価値観との整合性は体系的に評価されていません。
ここでは、効果的なコミュニケーションと社会的相互作用に必要な、感情の認識、解釈、理解を含む、LLM の心の知能指数 (EI) を評価しました。
具体的には、私たちはまず、人間とLLMの両方に適したEIの中核要素である感情理解(EU)に焦点を当てた新しい心理測定評価を開発しました。
このテストでは、現実的なシナリオで複雑な感情 (驚き、喜び、当惑、誇りなど) を評価する必要があります (例: パフォーマンスが劣っていると感じていたにもかかわらず、ジョンは驚くべきことにトップスコアを達成しました)。
500 人を超える成人から構築された参照フレームを使用して、さまざまな主流の LLM をテストしました。
ほとんどの参加者が平均以上のEQスコアを達成し、GPT-4はEQ117で人間の参加者の89%を超えました。興味深いことに、多変量パターン分析により、一部のLLMは人間レベルのパフォーマンスを達成するための人間のようなメカニズムについて明らかに応答していないことが明らかになりました。
なぜなら、彼らの表現パターンは人間とは質的に異なっていたからです。
さらに、モデルのサイズ、トレーニング方法、アーキテクチャなどの要因が LLM の EQ に与える影響についても議論しました。
要約すると、私たちの研究は、LLM の人間に似た特性の最初の心理測定的評価の 1 つを示しており、これは高い知的知能と感情的知能の両方を目指す LLM の将来の発展に光を当てる可能性があります。
プロジェクト Web サイト: https://emotional-intelligence.github.io/
要約(オリジナル)
Large Language Models (LLMs) have demonstrated remarkable abilities across numerous disciplines, primarily assessed through tasks in language generation, knowledge utilization, and complex reasoning. However, their alignment with human emotions and values, which is critical for real-world applications, has not been systematically evaluated. Here, we assessed LLMs’ Emotional Intelligence (EI), encompassing emotion recognition, interpretation, and understanding, which is necessary for effective communication and social interactions. Specifically, we first developed a novel psychometric assessment focusing on Emotion Understanding (EU), a core component of EI, suitable for both humans and LLMs. This test requires evaluating complex emotions (e.g., surprised, joyful, puzzled, proud) in realistic scenarios (e.g., despite feeling underperformed, John surprisingly achieved a top score). With a reference frame constructed from over 500 adults, we tested a variety of mainstream LLMs. Most achieved above-average EQ scores, with GPT-4 exceeding 89% of human participants with an EQ of 117. Interestingly, a multivariate pattern analysis revealed that some LLMs apparently did not reply on the human-like mechanism to achieve human-level performance, as their representational patterns were qualitatively distinct from humans. In addition, we discussed the impact of factors such as model size, training method, and architecture on LLMs’ EQ. In summary, our study presents one of the first psychometric evaluations of the human-like characteristics of LLMs, which may shed light on the future development of LLMs aiming for both high intellectual and emotional intelligence. Project website: https://emotional-intelligence.github.io/
arxiv情報
著者 | Xuena Wang,Xueting Li,Zi Yin,Yue Wu,Liu Jia |
発行日 | 2023-07-28 06:29:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google