EducationQ: Evaluating LLMs’ Teaching Capabilities Through Multi-Agent Dialogue Framework

要約

大規模な言語モデル(LLM)はますます教育ツールとして機能していますが、教育能力を評価することは、教師と学生の相互作用のリソース集中的、コンテキスト依存的、方法論的に複雑な性質のために依然として困難です。
教育、学習、評価のための専門的なエージェントを特徴とする、シミュレートされた動的な教育シナリオを通じて教育能力を効率的に評価するマルチエージェントの対話フレームワークであるEducationQを紹介します。
13の分野と10の難易度にまたがる1,498の質問で、主要なAI組織(Openai、Meta、Google、Anthropic、その他)で14のLLMをテストすることにより、教育の効果はモデルスケールまたは一般的な推論能力と直線的に相関していないことが明らかになりました。
この発見は、インタラクティブな教育学よりも知識のリコールを優先する現在の評価の重要なギャップを強調しています。
定量的メトリックと定性分析と専門家のケーススタディを組み合わせた混合メソッド評価は、トップパフォーマンスモデル(例えば、洗練された質問戦略、適応フィードバックメカニズムなど)で採用されている明確な教育的強度を特定します。
人間の専門家の評価は、効果的な教育行動の自動化された定性分析と78%の合意を示し、私たちの方法論を検証します。
EducationQは、LLMS-As-Teachersが単純なスケーリングを超えて専門的な最適化を必要とすることを示しており、次世代の教育的AIが特定の教育的有効性の標的強化を優先することを示唆しています。

要約(オリジナル)

Large language models (LLMs) increasingly serve as educational tools, yet evaluating their teaching capabilities remains challenging due to the resource-intensive, context-dependent, and methodologically complex nature of teacher-student interactions. We introduce EducationQ, a multi-agent dialogue framework that efficiently assesses teaching capabilities through simulated dynamic educational scenarios, featuring specialized agents for teaching, learning, and evaluation. Testing 14 LLMs across major AI Organizations (OpenAI, Meta, Google, Anthropic, and others) on 1,498 questions spanning 13 disciplines and 10 difficulty levels reveals that teaching effectiveness does not correlate linearly with model scale or general reasoning capabilities – with some smaller open-source models outperforming larger commercial counterparts in teaching contexts. This finding highlights a critical gap in current evaluations that prioritize knowledge recall over interactive pedagogy. Our mixed-methods evaluation, combining quantitative metrics with qualitative analysis and expert case studies, identifies distinct pedagogical strengths employed by top-performing models (e.g., sophisticated questioning strategies, adaptive feedback mechanisms). Human expert evaluations show 78% agreement with our automated qualitative analysis of effective teaching behaviors, validating our methodology. EducationQ demonstrates that LLMs-as-teachers require specialized optimization beyond simple scaling, suggesting next-generation educational AI prioritize targeted enhancement of specific pedagogical effectiveness.

arxiv情報

著者 Yao Shi,Rongkeng Liang,Yong Xu
発行日 2025-04-21 07:48:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CE, cs.CL, cs.CY, cs.HC パーマリンク