要約
我々は、大規模言語モデル(LLM)の感情知能の側面を評価するために設計された新しいベンチマークであるEQ-Benchを紹介する。対話における登場人物の感情の強さを予測させることで、複雑な感情や社会的相互作用を理解するLLMの能力を評価する。ベンチマークは幅広いモデルを効果的に識別することができる。EQ-Benchは、MMLU (Hendrycks et al., 2020)のような包括的なマルチドメインベンチマークと強い相関があり(r=0.97)、広範な知能の類似した側面を捉えている可能性を示している。私たちのベンチマークは、60問の英語問題を用いて、再現性の高い結果を出しています。また、自動ベンチマークパイプラインのオープンソースコードをhttps://github.com/EQ-bench/EQ-Bench、リーダーボードをhttps://eqbench.com。
要約(オリジナル)
We introduce EQ-Bench, a novel benchmark designed to evaluate aspects of emotional intelligence in Large Language Models (LLMs). We assess the ability of LLMs to understand complex emotions and social interactions by asking them to predict the intensity of emotional states of characters in a dialogue. The benchmark is able to discriminate effectively between a wide range of models. We find that EQ-Bench correlates strongly with comprehensive multi-domain benchmarks like MMLU (Hendrycks et al., 2020) (r=0.97), indicating that we may be capturing similar aspects of broad intelligence. Our benchmark produces highly repeatable results using a set of 60 English-language questions. We also provide open-source code for an automated benchmarking pipeline at https://github.com/EQ-bench/EQ-Bench and a leaderboard at https://eqbench.com
arxiv情報
著者 | Samuel J. Paech |
発行日 | 2024-01-03 12:20:35+00:00 |
arxivサイト | arxiv_id(pdf) |