E-EVAL: A Comprehensive Chinese K-12 Education Evaluation Benchmark for Large Language Models

要約

大規模言語モデル (LLM) の開発が加速するにつれて、多くの LLM が中国語の幼稚園から高等学校までの教育領域で使用され始めています。
LLM と教育の統合はますます近づいていますが、現在、中国の K-12 教育領域に焦点を当てた LLM を評価するためのベンチマークはありません。
したがって、中国の幼稚園から高等学校までの教育分野におけるさまざまな LLM の機能を正確に評価するための包括的な自然言語処理ベンチマークが緊急に必要とされています。
これに対処するために、中国の幼稚園から高校までの教育分野向けに特別に設計された初の包括的な評価ベンチマークである E-EVAL を導入します。
E-EVALは、中国語、英語、政治、歴史、倫理、物理、化学、数学、地理を含む幅広い科目にわたる、小・中・高等学校レベルの4,351問の多肢選択問題で構成されています。
私たちは、英語主体のモデルと中国語主体のモデルの両方を含む、高度な LLM に対して E-EVAL の包括的な評価を実施しました。
調査結果によると、中国語主体のモデルは英語主体のモデルと比べてパフォーマンスが良く、多くのスコアは GPT 4.0 を上回っています。
ただし、ほとんどすべてのモデルは、数学などの複雑な主題ではパフォーマンスが低くなります。
また、中国人が優勢なLLMのほとんどは、中学校レベルと比較して小学校レベルで高いスコアを達成していないこともわかりました。
モデルによる高次の知識の習得は、必ずしも低次の知識の習得を意味するわけではないことがわかります。
さらに、実験結果は、思考連鎖 (CoT) テクニックが難解な科学科目にのみ効果的であるのに対し、少数ショット プロンプトは文系科目に対してより有益であることを示しています。
E-EVAL を使用して、教育アプリケーションにおける LLM の長所と限界を分析し、中国の K-12 教育と​​ LLM の進歩と発展に貢献することを目指しています。

要約(オリジナル)

With the accelerating development of Large Language Models (LLMs), many LLMs are beginning to be used in the Chinese K-12 education domain. The integration of LLMs and education is getting closer and closer, however, there is currently no benchmark for evaluating LLMs that focuses on the Chinese K-12 education domain. Therefore, there is an urgent need for a comprehensive natural language processing benchmark to accurately assess the capabilities of various LLMs in the Chinese K-12 education domain. To address this, we introduce the E-EVAL, the first comprehensive evaluation benchmark specifically designed for the Chinese K-12 education field. The E-EVAL consists of 4,351 multiple-choice questions at the primary, middle, and high school levels across a wide range of subjects, including Chinese, English, Politics, History, Ethics, Physics, Chemistry, Mathematics, and Geography. We conducted a comprehensive evaluation of E-EVAL on advanced LLMs, including both English-dominant and Chinese-dominant models. Findings show that Chinese-dominant models perform well compared to English-dominant models, with many scoring even above the GPT 4.0. However, almost all models perform poorly in complex subjects such as mathematics. We also found that most Chinese-dominant LLMs did not achieve higher scores at the primary school level compared to the middle school level. We observe that the mastery of higher-order knowledge by the model does not necessarily imply the mastery of lower-order knowledge as well. Additionally, the experimental results indicate that the Chain of Thought (CoT) technique is effective only for the challenging science subjects, while Few-shot prompting is more beneficial for liberal arts subjects. With E-EVAL, we aim to analyze the strengths and limitations of LLMs in educational applications, and to contribute to the progress and development of Chinese K-12 education and LLMs.

arxiv情報

著者 Jinchang Hou,Chang Ao,Haihong Wu,Xiangtao Kong,Zhigang Zheng,Daijia Tang,Chengming Li,Xiping Hu,Ruifeng Xu,Shiwen Ni,Min Yang
発行日 2024-01-29 07:34:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク