要約
このホワイトペーパーでは、eDU-Valuesを提示します。これは、プロの哲学、教師の専門倫理、教育法と規制、文化リテラシー、教育知識とスキル、基本的能力、主題知識など、7つのコアバリューを含む中国の最初の教育価値評価ベンチマークです。
私たちは細心の注意を払って1,418の質問を設計し、複数選択、マルチモーダルの質問応答、主観的分析、敵対的なプロンプト、および中国の伝統文化(短い答え)の質問をカバーします。
21の最先端(SOTA)LLMSを超える人間のフィードバックベースの自動評価を実施し、3つの主要な調査結果を強調します。(1)教育文化の違いにより、中国のLLMSは英語LLMを上回り、Qwen 2は81.37のスコアで最初のランキングを行います。
(2)LLMSはしばしば教師の職業倫理や職業哲学に苦しんでいます。
(3)EDU値を活用して、RAGの外部知識リポジトリを構築すると、LLMSのアライメントが大幅に向上します。
これは、提案されたベンチマークの有効性を示しています。
要約(オリジナル)
In this paper, we present Edu-Values, the first Chinese education values evaluation benchmark that includes seven core values: professional philosophy, teachers’ professional ethics, education laws and regulations, cultural literacy, educational knowledge and skills, basic competencies and subject knowledge. We meticulously design 1,418 questions, covering multiple-choice, multi-modal question answering, subjective analysis, adversarial prompts, and Chinese traditional culture (short answer) questions. We conduct human feedback based automatic evaluation over 21 state-of-the-art (SoTA) LLMs, and highlight three main findings: (1) due to differences in educational culture, Chinese LLMs outperform English LLMs, with Qwen 2 ranking the first with a score of 81.37; (2) LLMs often struggle with teachers’ professional ethics and professional philosophy; (3) leveraging Edu-Values to build an external knowledge repository for RAG significantly improves LLMs’ alignment. This demonstrates the effectiveness of the proposed benchmark.
arxiv情報
著者 | Peiyi Zhang,Yazhou Zhang,Bo Wang,Lu Rong,Prayag Tiwari,Jing Qin |
発行日 | 2025-03-21 14:17:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google