ArcMMLU: A Library and Information Science Benchmark for Large Language Models

要約

大規模言語モデル (LLM) の機能が急速に進化していることを考慮すると、その機能を正確に評価するための厳密なドメイン固有の評価ベンチマークを開発することが不可欠になっています。
このニーズに応えて、このホワイト ペーパーでは、中国語の図書館情報科学 (LIS) ドメインに特化したベンチマークである ArcMMLU を紹介します。
このベンチマークは、アーカイブ サイエンス、データ サイエンス、図書館サイエンス、情報サイエンスの 4 つの主要なサブドメイン内の LLM の知識と推論能力を測定することを目的としています。
MMLU/CMMLU の形式に従って、ArcMMLU の編集用に 6,000 を超える質の高い質問を収集しました。
この広範な編集は、LIS ドメインの多様な性質を反映し、LLM 評価の堅牢な基盤を提供します。
私たちの包括的な評価では、ほとんどの主流の LLM が ArcMMLU で 50% を超える平均精度を達成している一方で、依然として顕著なパフォーマンスのギャップがあり、LIS ドメイン内の LLM 機能を改良する余地がかなりあることがわかります。
さらに分析を進めると、モデルのパフォーマンスに対する少数ショットの例の有効性が調査され、モデルのパフォーマンスが常に下回る場合の困難な疑問が浮き彫りになり、目標を絞った改善のための貴重な洞察が得られます。
ArcMMLU は、中国の LIS ドメイン内の LLM 評価における重大なギャップを埋め、この専門分野に合わせた LLM の将来の開発への道を開きます。

要約(オリジナル)

In light of the rapidly evolving capabilities of large language models (LLMs), it becomes imperative to develop rigorous domain-specific evaluation benchmarks to accurately assess their capabilities. In response to this need, this paper introduces ArcMMLU, a specialized benchmark tailored for the Library & Information Science (LIS) domain in Chinese. This benchmark aims to measure the knowledge and reasoning capability of LLMs within four key sub-domains: Archival Science, Data Science, Library Science, and Information Science. Following the format of MMLU/CMMLU, we collected over 6,000 high-quality questions for the compilation of ArcMMLU. This extensive compilation can reflect the diverse nature of the LIS domain and offer a robust foundation for LLM evaluation. Our comprehensive evaluation reveals that while most mainstream LLMs achieve an average accuracy rate above 50% on ArcMMLU, there remains a notable performance gap, suggesting substantial headroom for refinement in LLM capabilities within the LIS domain. Further analysis explores the effectiveness of few-shot examples on model performance and highlights challenging questions where models consistently underperform, providing valuable insights for targeted improvements. ArcMMLU fills a critical gap in LLM evaluations within the Chinese LIS domain and paves the way for future development of LLMs tailored to this specialized area.

arxiv情報

著者 Shitou Zhang,Zuchao Li,Xingshen Liu,Liming Yang,Ping Wang
発行日 2023-11-30 16:08:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク