LHMKE: A Large-scale Holistic Multi-subject Knowledge Evaluation Benchmark for Chinese Large Language Models

要約

中国語大規模言語モデル (LLM) は最近、さまざまな NLP ベンチマークと現実世界のアプリケーションにわたって優れた機能を実証しました。
ただし、これらの LLM を包括的に評価するための既存のベンチマークは、特に LLM が取得する知識の測定という点ではまだ不十分です。
現在のデータセットは、この問題に対処するために、さまざまな科目や教育レベルにわたる中国語試験の問題を収集しています。
しかし、これらのベンチマークは主に多肢選択式の質問などの客観的な質問に焦点を当てているため、質問の種類の多様性が欠如しています。
この問題に取り組むために、このホワイトペーパーでは、大規模で全体的で複数の主題の知識評価ベンチマークである LHMKE を提案します。
LHMKE は、中国の LLM の知識獲得能力の包括的な評価を提供するように設計されています。
小学校から専門認定試験まで、30 科目をカバーする 75 のタスクにわたる 10,465 の問題が含まれています。
特に、LHMKE には客観的質問と主観的質問の両方が含まれており、LLM の知識レベルのより総合的な評価が提供されます。
実際の試験と一致するゼロショット設定で 11 の中国 LLM を評価し、さまざまな科目でのパフォーマンスを比較しました。
また、GPT-4 が主観的な予測を自動的に採点できるかどうかを確認するために、詳細な分析も実施します。
私たちの調査結果は、LHMKE が中国の LLM にとって挑戦的かつ高度なテストベッドであることを示唆しています。

要約(オリジナル)

Chinese Large Language Models (LLMs) have recently demonstrated impressive capabilities across various NLP benchmarks and real-world applications. However, the existing benchmarks for comprehensively evaluating these LLMs are still insufficient, particularly in terms of measuring knowledge that LLMs capture. Current datasets collect questions from Chinese examinations across different subjects and educational levels to address this issue. Yet, these benchmarks primarily focus on objective questions such as multiple-choice questions, leading to a lack of diversity in question types. To tackle this problem, we propose LHMKE, a Large-scale, Holistic, and Multi-subject Knowledge Evaluation benchmark in this paper. LHMKE is designed to provide a comprehensive evaluation of the knowledge acquisition capabilities of Chinese LLMs. It encompasses 10,465 questions across 75 tasks covering 30 subjects, ranging from primary school to professional certification exams. Notably, LHMKE includes both objective and subjective questions, offering a more holistic evaluation of the knowledge level of LLMs. We have assessed 11 Chinese LLMs under the zero-shot setting, which aligns with real examinations, and compared their performance across different subjects. We also conduct an in-depth analysis to check whether GPT-4 can automatically score subjective predictions. Our findings suggest that LHMKE is a challenging and advanced testbed for Chinese LLMs.

arxiv情報

著者 Chuang Liu,Renren Jin,Yuqi Ren,Deyi Xiong
発行日 2024-03-19 10:11:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク