Dr.Academy: A Benchmark for Evaluating Questioning Capability in Education for Large Language Models

要約

教師は知識を伝え、学習者を指導する上で重要であり、潜在的な教育者としての大規模言語モデル (LLM) の役割が重要な研究分野として浮上しています。
教育コンテンツを生成する LLM の能力を認識することは、自動化された個別化された学習の進歩につながる可能性があります。
LLM は理解力と問題解決スキルがテストされてきましたが、教育における LLM の能力はほとんど解明されていません。
教育において、質問は、生徒が核となる概念と原則を分析、評価、統合できるように導く重要なスキルです。
したがって、私たちの研究では、一般、単分野、および学際的な領域にわたるアンダーソンとクラスウォールの分類を利用して、生成された教育的質問を評価することによって、LLMの教師としての教育における質問能力を評価するためのベンチマークを導入します。
私たちは、学習者としての LLM から教育者としての LLM に焦点を移し、質問を生み出すよう指導することで彼らの指導能力を評価します。
私たちは、関連性、網羅性、代表性、一貫性を含む 4 つの指標を適用して、LLM の成果の教育の質を評価します。
私たちの結果は、GPT-4 が一般、人文科学、科学のコースを教える際に大きな可能性を示していることを示しています。
Claude2 は学際的な教師としてより適任であると思われます。
さらに、自動スコアは人間の視点と一致しています。

要約(オリジナル)

Teachers are important to imparting knowledge and guiding learners, and the role of large language models (LLMs) as potential educators is emerging as an important area of study. Recognizing LLMs’ capability to generate educational content can lead to advances in automated and personalized learning. While LLMs have been tested for their comprehension and problem-solving skills, their capability in teaching remains largely unexplored. In teaching, questioning is a key skill that guides students to analyze, evaluate, and synthesize core concepts and principles. Therefore, our research introduces a benchmark to evaluate the questioning capability in education as a teacher of LLMs through evaluating their generated educational questions, utilizing Anderson and Krathwohl’s taxonomy across general, monodisciplinary, and interdisciplinary domains. We shift the focus from LLMs as learners to LLMs as educators, assessing their teaching capability through guiding them to generate questions. We apply four metrics, including relevance, coverage, representativeness, and consistency, to evaluate the educational quality of LLMs’ outputs. Our results indicate that GPT-4 demonstrates significant potential in teaching general, humanities, and science courses; Claude2 appears more apt as an interdisciplinary teacher. Furthermore, the automatic scores align with human perspectives.

arxiv情報

著者 Yuyan Chen,Chenwei Wu,Songzhou Yan,Panjun Liu,Haoyu Zhou,Yanghua Xiao
発行日 2024-08-20 15:36:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY パーマリンク