GIEBench: Towards Holistic Evaluation of Group Identity-based Empathy for Large Language Models

要約

大規模言語モデル (LLM) が開発され、広く適用されるようになるにつれ、多様なグループのアイデンティティに対して共感を示し、彼らの視点を理解する LLM の能力が重要であることがますます認識されています。
LLM の共感評価の既存のベンチマークのほとんどは、主に悲しみや痛みなどの人間の普遍的な感情に焦点を当てており、個人のグループ アイデンティティの文脈が無視されていることがよくあります。
このギャップに対処するために、11 のアイデンティティ次元を含む包括的なベンチマークである GIEBench を導入します。これは、97 のグループ アイデンティティをカバーし、特定のグループ アイデンティティに関連する合計 999 の単一選択の質問をカバーします。
GIEBench は、性別、年齢、職業、人種などの特定のグループのアイデンティティを提示されたときの LLM の共感を評価し、特定されたグループの観点から応答する能力を強調するように設計されています。
これにより、さまざまなアイデンティティを持つユーザーに合わせた共感的な LLM アプリケーションの継続的な開発がサポートされます。
23 の LLM を評価したところ、これらの LLM はさまざまなアイデンティティの立場を理解しているものの、それらの視点を採用するための明示的な指示がなければ、これらのアイデンティティ全体で一貫して平等な共感を示すことができないことが明らかになりました。
これは、人間のアイデンティティの多面的な性質にうまく対応するために、多様な価値観を持つ LLM の調整を改善する必要性を浮き彫りにしています。
データセットは https://github.com/GIEBench/GIEBench で入手できます。

要約(オリジナル)

As large language models (LLMs) continue to develop and gain widespread application, the ability of LLMs to exhibit empathy towards diverse group identities and understand their perspectives is increasingly recognized as critical. Most existing benchmarks for empathy evaluation of LLMs focus primarily on universal human emotions, such as sadness and pain, often overlooking the context of individuals’ group identities. To address this gap, we introduce GIEBench, a comprehensive benchmark that includes 11 identity dimensions, covering 97 group identities with a total of 999 single-choice questions related to specific group identities. GIEBench is designed to evaluate the empathy of LLMs when presented with specific group identities such as gender, age, occupation, and race, emphasizing their ability to respond from the standpoint of the identified group. This supports the ongoing development of empathetic LLM applications tailored to users with different identities. Our evaluation of 23 LLMs revealed that while these LLMs understand different identity standpoints, they fail to consistently exhibit equal empathy across these identities without explicit instructions to adopt those perspectives. This highlights the need for improved alignment of LLMs with diverse values to better accommodate the multifaceted nature of human identities. Our datasets are available at https://github.com/GIEBench/GIEBench.

arxiv情報

著者 Leyan Wang,Yonggang Jin,Tianhao Shen,Tianyu Zheng,Xinrun Du,Chenchen Zhang,Wenhao Huang,Jiaheng Liu,Shi Wang,Ge Zhang,Liuyu Xiang,Zhaofeng He
発行日 2024-06-24 14:57:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク