Evaluating GPT-4 at Grading Handwritten Solutions in Math Exams

要約

生成型人工知能 (AI) の最近の進歩により、学生の自由回答の正確な採点が可能になることが示されています。
しかし、データ不足や視覚情報と文字情報を組み合わせるという課題のため、手書きの回答の採点を検討した先行研究はほとんどありません。
この取り組みでは、最先端のマルチモーダル AI モデル、特に GPT-4o を活用して、大学レベルの数学試験の手書き回答を自動的に採点します。
確率論試験の質問に対する実際の学生の回答を使用して、さまざまなプロンプト手法を使用して人間の採点者によるグラウンドトゥルーススコアと GPT-4o の整合性を評価します。
ルーブリックを提供すると整合性は向上しますが、モデルの全体的な精度は現実世界の設定にはまだ低すぎることがわかり、このタスクには大きな成長の余地があることがわかりました。

要約(オリジナル)

Recent advances in generative artificial intelligence (AI) have shown promise in accurately grading open-ended student responses. However, few prior works have explored grading handwritten responses due to a lack of data and the challenge of combining visual and textual information. In this work, we leverage state-of-the-art multi-modal AI models, in particular GPT-4o, to automatically grade handwritten responses to college-level math exams. Using real student responses to questions in a probability theory exam, we evaluate GPT-4o’s alignment with ground-truth scores from human graders using various prompting techniques. We find that while providing rubrics improves alignment, the model’s overall accuracy is still too low for real-world settings, showing there is significant room for growth in this task.

arxiv情報

著者 Adriana Caraeni,Alexander Scarlatos,Andrew Lan
発行日 2024-12-12 16:40:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY, cs.LG パーマリンク