EQ-Bench: An Emotional Intelligence Benchmark for Large Language Models

要約

大規模言語モデル (LLM) の心の知能指数を評価するために設計された新しいベンチマークである EQ-Bench を紹介します。
私たちは、LLM に対話中の登場人物の感情状態の強さを予測するよう依頼することで、複雑な感情と社会的相互作用を理解する能力を評価します。
このベンチマークは、幅広いモデルを効果的に区別できます。
EQ-Bench は MMLU のような包括的なマルチドメイン ベンチマークと強い相関があることがわかり (Hendrycks et al., 2020) (r=0.97)、これは広範な知能の同様の側面を捉えている可能性があることを示しています。
私たちのベンチマークは、60 個の英語の質問セットを使用して、再現性の高い結果を生成します。
また、自動ベンチマーク パイプラインのオープンソース コードを https://github.com/EQ-bench/EQ-Bench で、リーダーボードを https://www.eqbench.com で提供しています。

要約(オリジナル)

We introduce EQ-Bench, a novel benchmark designed to evaluate aspects of emotional intelligence in Large Language Models (LLMs). We assess the ability of LLMs to understand complex emotions and social interactions by asking them to predict the intensity of emotional states of characters in a dialogue. The benchmark is able to discriminate effectively between a wide range of models. We find that EQ-Bench correlates strongly with comprehensive multi-domain benchmarks like MMLU (Hendrycks et al., 2020) (r=0.97), indicating that we may be capturing similar aspects of broad intelligence. Our benchmark produces highly repeatable results using a set of 60 English-language questions. We also provide open-source code for an automated benchmarking pipeline at https://github.com/EQ-bench/EQ-Bench and a leaderboard at https://www.eqbench.com

arxiv情報

著者 Samuel J. Paech
発行日 2023-12-11 10:35:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, I.2.7 パーマリンク