要約
この論文では、現在の最先端の大規模言語モデル (LLM) が AI 家庭教師として効果的であるかどうか、また教育対話において優れた AI 家庭教師に必要な教育能力を発揮するかどうかを調査します。
評価に向けたこれまでの取り組みは、主観的なプロトコルとベンチマークに限定されていました。
このギャップを埋めるために、主要な学習科学原則に基づいた 8 つの教育的側面を備えた統一評価分類法を提案します。これは、数学的領域における生徒の間違いや混乱に基づいた、LLM を利用した AI 講師の応答の教育的価値を評価するように設計されています。
私たちは MRBench をリリースします。これは、7 人の最先端の LLM ベースの人間教師による 192 の会話と 1,596 の応答を含む新しい評価ベンチマークであり、8 つの教育的側面に対するゴールド アノテーションを提供します。
私たちは評価者として人気のある Prometheus2 LLM の信頼性を評価し、各講師の教育能力を分析して、どの LLM が優れた講師であり、どの LLM が質問応答システムとしてより適しているかを強調します。
私たちは、提示された分類法、ベンチマーク、人間による注釈付きラベルが評価プロセスを合理化し、AI 講師の開発の進捗状況を追跡するのに役立つと信じています。
要約(オリジナル)
In this paper, we investigate whether current state-of-the-art large language models (LLMs) are effective as AI tutors and whether they demonstrate pedagogical abilities necessary for good AI tutoring in educational dialogues. Previous efforts towards evaluation have been limited to subjective protocols and benchmarks. To bridge this gap, we propose a unified evaluation taxonomy with eight pedagogical dimensions based on key learning sciences principles, which is designed to assess the pedagogical value of LLM-powered AI tutor responses grounded in student mistakes or confusion in the mathematical domain. We release MRBench — a new evaluation benchmark containing 192 conversations and 1,596 responses from seven state-of-the-art LLM-based and human tutors, providing gold annotations for eight pedagogical dimensions. We assess reliability of the popular Prometheus2 LLM as an evaluator and analyze each tutor’s pedagogical abilities, highlighting which LLMs are good tutors and which ones are more suitable as question-answering systems. We believe that the presented taxonomy, benchmark, and human-annotated labels will streamline the evaluation process and help track the progress in AI tutors’ development.
arxiv情報
著者 | Kaushal Kumar Maurya,KV Aditya Srivatsa,Kseniia Petukhova,Ekaterina Kochmar |
発行日 | 2024-12-12 16:24:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google