RoleEval: A Bilingual Role Evaluation Benchmark for Large Language Models

要約

大規模言語モデル (LLM) の急速な進化により、その役割の知識を評価するための効果的なベンチマークが必要になります。これは、現実世界とのつながりを確立し、より没入型のインタラクションを提供するために不可欠です。
このペーパーでは、役割知識の記憶、活用、および推論能力を評価するために設計されたバイリンガル ベンチマークである、RoleEval を紹介します。
RoleEval は、RoleEval-Global (国際的に認知されているキャラクターを含む) と、RoleEval- Chinese (中国で人気のキャラクターを含む) で構成されており、著名人を含むさまざまな分野から選ばれた 300 人の影響力のある人物や架空のキャラクターに焦点を当てた、中国語と英語の並列多肢選択問題 6,000 問が含まれています。
アニメ、漫画、映画、テレビシリーズ、ゲーム、フィクション。
これらの質問は、基本的な知識とマルチホップ推論能力をカバーしており、登場人物の個人情報、人間関係、能力、経験などのさまざまな側面を体系的に調査することを目的としています。
高い基準を維持するために、当社では自動検証と人間による検証を組み合わせたハイブリッド品質チェック プロセスを実行し、質問が多様で、挑戦的で、差別的であることを保証します。
さまざまなオープンソースおよび独自の大規模言語モデルにわたる、ゼロショット設定と少数ショット設定の両方での、RoleEval の広範な評価により、洞察力に富んだ結果が明らかになりました。
特に、GPT-4 は、RoleEval-Global では他のモデルよりも優れていますが、中国の LLM は、RoleEval- Chinese では優れており、知識分布の大きな違いが浮き彫りになっています。
私たちは、RoleEval がさまざまな言語や文化的環境にわたる基礎モデルの役割知識を評価する重要性を強調することを期待しています。

要約(オリジナル)

The rapid evolution of large language models (LLMs) necessitates effective benchmarks for evaluating their role knowledge, which is essential for establishing connections with the real world and providing more immersive interactions. This paper introduces RoleEval, a bilingual benchmark designed to assess the memorization, utilization, and reasoning capabilities of role knowledge. RoleEval comprises RoleEval-Global (including internationally recognized characters) and RoleEval-Chinese (including characters popular in China), with 6,000 Chinese-English parallel multiple-choice questions focusing on 300 influential people and fictional characters drawn from a variety of domains including celebrities, anime, comics, movies, TV series, games, and fiction. These questions cover basic knowledge and multi-hop reasoning abilities, aiming to systematically probe various aspects such as personal information, relationships, abilities, and experiences of the characters. To maintain high standards, we perform a hybrid quality check process combining automatic and human verification, ensuring that the questions are diverse, challenging, and discriminative. Our extensive evaluations of RoleEval across various open-source and proprietary large language models, under both the zero- and few-shot settings, reveal insightful findings. Notably, while GPT-4 outperforms other models on RoleEval-Global, Chinese LLMs excel on RoleEval-Chinese, highlighting significant knowledge distribution differences. We expect that RoleEval will highlight the significance of assessing role knowledge for foundation models across various languages and cultural settings.

arxiv情報

著者 Tianhao Shen,Sun Li,Deyi Xiong
発行日 2023-12-26 17:40:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク