Edu-Values: Towards Evaluating the Chinese Education Values of Large Language Models

要約

このホワイトペーパーでは、eDU-Valuesを提示します。これは、プロの哲学、教師の専門倫理、教育法と規制、文化リテラシー、教育知識とスキル、基本的能力、主題知識など、7つのコアバリューを含む中国の最初の教育価値評価ベンチマークです。
私たちは細心の注意を払って1,418の質問を設計し、複数選択、マルチモーダルの質問応答、主観的分析、敵対的なプロンプト、および中国の伝統文化(短い答え)の質問をカバーします。
21の最先端(SOTA)LLMSを超える人間のフィードバックベースの自動評価を実施し、3つの主要な調査結果を強調します。(1)教育文化の違いにより、中国のLLMSは英語LLMを上回り、Qwen 2は81.37のスコアで最初のランキングを行います。
(2)LLMSはしばしば教師の職業倫理や職業哲学に苦しんでいます。
(3)EDU値を活用して、RAGの外部知識リポジトリを構築すると、LLMSのアライメントが大幅に向上します。
これは、提案されたベンチマークの有効性を示しています。

要約(オリジナル)

In this paper, we present Edu-Values, the first Chinese education values evaluation benchmark that includes seven core values: professional philosophy, teachers’ professional ethics, education laws and regulations, cultural literacy, educational knowledge and skills, basic competencies and subject knowledge. We meticulously design 1,418 questions, covering multiple-choice, multi-modal question answering, subjective analysis, adversarial prompts, and Chinese traditional culture (short answer) questions. We conduct human feedback based automatic evaluation over 21 state-of-the-art (SoTA) LLMs, and highlight three main findings: (1) due to differences in educational culture, Chinese LLMs outperform English LLMs, with Qwen 2 ranking the first with a score of 81.37; (2) LLMs often struggle with teachers’ professional ethics and professional philosophy; (3) leveraging Edu-Values to build an external knowledge repository for RAG significantly improves LLMs’ alignment. This demonstrates the effectiveness of the proposed benchmark.

arxiv情報

著者 Peiyi Zhang,Yazhou Zhang,Bo Wang,Lu Rong,Prayag Tiwari,Jing Qin
発行日 2025-03-21 14:17:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク