Learning to Love Edge Cases in Formative Math Assessment: Using the AMMORE Dataset and Chain-of-Thought Prompting to Improve Grading Accuracy

要約

この論文では、いくつかのアフリカ諸国の学生が使用する学習プラットフォームである Rori の 53,000 個の数学の自由回答の質問と回答のペアの新しいデータセットである AMMORE を紹介し、特に難しい採点のための大規模言語モデル (LLM) の使用を評価する 2 つの実験を実施します。
学生が答える。
AMMORE データセットはさまざまな潜在的な分析を可能にし、十分に研究されていない現実世界の教育状況における生徒の数学の習得を研究するための重要なリソースを提供します。
実験 1 では、ゼロショット、少数ショット、思考連鎖プロンプトなどのさまざまな LLM 主導のアプローチを使用して、ルールベースの分類子が正確に採点できない生徒の回答の 1% を採点します。
最も効果が高かったアプローチである思考連鎖プロンプトは、これらのエッジケースの 92% を正確にスコアリングし、グレーディングの全体的な精度が 98.7% から 99.9% に効果的に向上したことがわかりました。
実験 2 では、最もパフォーマンスの高い LLM ベースのアプローチによって生成された成績を、生徒の特定のレッスンの習熟度を推定するベイジアン知識追跡 (BKT) モデルに渡すことで、成績評価の精度の向上の結果として生じる妥当性をより深く理解することを目的としています。
個々の質問レベルでのモデルの精度の比較的緩やかな改善が、生徒の習熟度の推定に大きな変化をもたらす可能性があることがわかりました。
現在生徒を採点するために使用されているルールベースの分類器では、完了したレッスン全体で 6.9% の生徒の習熟度を誤って回答していましたが、LLM 思考連鎖アプローチを使用すると、この誤分類率は生徒の 2.6% に減少しました。
総合すると、これらの調査結果は、LLM が幼稚園から高校までの数学教育における自由回答形式の質問を採点するための貴重なツールである可能性があり、潜在的に形成的評価における自由回答形式の質問の広範な採用を促進できる可能性があることを示唆しています。

要約(オリジナル)

This paper introduces AMMORE, a new dataset of 53,000 math open-response question-answer pairs from Rori, a learning platform used by students in several African countries and conducts two experiments to evaluate the use of large language models (LLM) for grading particularly challenging student answers. The AMMORE dataset enables various potential analyses and provides an important resource for researching student math acquisition in understudied, real-world, educational contexts. In experiment 1 we use a variety of LLM-driven approaches, including zero-shot, few-shot, and chain-of-thought prompting, to grade the 1% of student answers that a rule-based classifier fails to grade accurately. We find that the best-performing approach — chain-of-thought prompting — accurately scored 92% of these edge cases, effectively boosting the overall accuracy of the grading from 98.7% to 99.9%. In experiment 2, we aim to better understand the consequential validity of the improved grading accuracy, by passing grades generated by the best-performing LLM-based approach to a Bayesian Knowledge Tracing (BKT) model, which estimated student mastery of specific lessons. We find that relatively modest improvements in model accuracy at the individual question level can lead to significant changes in the estimation of student mastery. Where the rules-based classifier currently used to grade student, answers misclassified the mastery status of 6.9% of students across their completed lessons, using the LLM chain-of-thought approach this misclassification rate was reduced to 2.6% of students. Taken together, these findings suggest that LLMs could be a valuable tool for grading open-response questions in K-12 mathematics education, potentially enabling encouraging wider adoption of open-ended questions in formative assessment.

arxiv情報

著者 Owen Henkel,Hannah Horne-Robinson,Maria Dyshel,Nabil Ch,Baptiste Moreau-Pernet,Ralph Abood
発行日 2024-09-26 14:51:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク