要約
GPT-4などの大規模な言語モデル(LLM)は、GSM8Kなどのベンチマークでほぼ完璧なパフォーマンスを達成する印象的な数学的推論能力を実証しています。
ただし、個別の教育への適用は、エラーの診断とフィードバックの生成に対する正しさの強調過剰のために限られたままです。
現在のモデルは、学生の間違いの原因について有意義な洞察を提供することができず、教育的文脈での有用性を制限しています。
これらの課題に対処するために、3つの重要な貢献を提示します。
まず、\ textBf {mathccs}(数学的分類と建設的な提案)を紹介します。これは、系統的エラー分析とカスタマイズされたフィードバックのために設計されたマルチモーダルベンチマークです。
Mathccsには、実際の問題、専門家が解決したエラーカテゴリ、および縦断的な学生データが含まれます。
\ textit {qwen2-vl}、\ textit {llava-ov}、\ textit {claude-3.5-sonnet}、\ textit {gpt-4o}を含む最先端のモデルの評価{gpt-4o}は、達成されていないことを明らかにします
30 \%を超える分類精度または高品質の提案(4/10未満の平均スコア)を生成し、からの大きなギャップを強調しています
人間レベルのパフォーマンス。
第二に、トレンドを追跡し、診断精度を改善するために履歴データを活用する順次エラー分析フレームワークを開発します。
最後に、履歴分析のための時系列エージェントを組み合わせたマルチエージェント共同フレームワークと、リアルタイムの改良、エラー分類とフィードバック生成を強化するためのMLLMエージェントを組み合わせたものを提案します。
一緒に、これらの貢献は、パーソナライズされた教育を進めるための堅牢なプラットフォームを提供し、現在のAI能力と現実世界の教育の要求との間のギャップを埋めることができます。
要約(オリジナル)
Large Language Models (LLMs), such as GPT-4, have demonstrated impressive mathematical reasoning capabilities, achieving near-perfect performance on benchmarks like GSM8K. However, their application in personalized education remains limited due to an overemphasis on correctness over error diagnosis and feedback generation. Current models fail to provide meaningful insights into the causes of student mistakes, limiting their utility in educational contexts. To address these challenges, we present three key contributions. First, we introduce \textbf{MathCCS} (Mathematical Classification and Constructive Suggestions), a multi-modal benchmark designed for systematic error analysis and tailored feedback. MathCCS includes real-world problems, expert-annotated error categories, and longitudinal student data. Evaluations of state-of-the-art models, including \textit{Qwen2-VL}, \textit{LLaVA-OV}, \textit{Claude-3.5-Sonnet} and \textit{GPT-4o}, reveal that none achieved classification accuracy above 30\% or generated high-quality suggestions (average scores below 4/10), highlighting a significant gap from human-level performance. Second, we develop a sequential error analysis framework that leverages historical data to track trends and improve diagnostic precision. Finally, we propose a multi-agent collaborative framework that combines a Time Series Agent for historical analysis and an MLLM Agent for real-time refinement, enhancing error classification and feedback generation. Together, these contributions provide a robust platform for advancing personalized education, bridging the gap between current AI capabilities and the demands of real-world teaching.
arxiv情報
著者 | Yi-Fan Zhang,Hang Li,Dingjie Song,Lichao Sun,Tianlong Xu,Qingsong Wen |
発行日 | 2025-02-19 14:57:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google