Beyond human subjectivity and error: a novel AI grading system

要約

自由回答形式の質問の採点は、教育において多大な労力と影響を与える作業です。
このタスクを自動化すると、人間の主観や間違いを回避することで、教育専門家の作業負荷が大幅に軽減されるだけでなく、学生にとってより一貫した採点結果が得られることが期待されます。
AI テクノロジーの最近の進歩により、このような自動化が促進される可能性がありますが、これは大規模には実証されていません。
この論文では、新しい自動短答採点 (ASAG) システムを紹介します。
このシステムは、大学の幅広い分野のコースから得た大規模な試験データに基づいてトレーニングされた、微調整されたオープンソースのトランスフォーマー モデルに基づいています。
最初の実験で、保持されたテスト データに対してトレーニング済みモデルのパフォーマンスを評価したところ、未知のコースであっても、広範囲にわたる未知の質問にわたって高い精度レベルが得られたことがわかりました。
さらに、2 番目の実験で、私たちのモデルのパフォーマンスを認定人間領域専門家のパフォーマンスと比較しました。まず、実際の歴史的な試験から別のテスト データセットを組み立てました。そのデータに含まれる歴史的な成績は、規制された法的拘束力のある試験プロセスで学生に与えられました。
;
したがって、私たちはそれらを実験の真実であると考えました。
次に、認定されたヒューマン ドメインの専門家とモデルに、過去の成績を開示せずに、過去の生徒の回答を再度採点するよう依頼しました。
最後に、それによって得られたグレードを過去のグレード (当社のグランドトゥルース) と比較しました。
調査したコースでは、モデルは人間の再採点者よりも公式の歴史的採点からの逸脱が少ないことがわかりました。モデルの絶対誤差の中央値は人間の再採点者よりも 44 % 小さく、モデルが人間よりも一貫していることを意味します。
採点中。
これらの結果は、AI 強化グレーディングを活用することで人間の主観を軽減し、一貫性を向上させ、最終的には公平性を高めることができることを示唆しています。

要約(オリジナル)

The grading of open-ended questions is a high-effort, high-impact task in education. Automating this task promises a significant reduction in workload for education professionals, as well as more consistent grading outcomes for students, by circumventing human subjectivity and error. While recent breakthroughs in AI technology might facilitate such automation, this has not been demonstrated at scale. It this paper, we introduce a novel automatic short answer grading (ASAG) system. The system is based on a fine-tuned open-source transformer model which we trained on large set of exam data from university courses across a large range of disciplines. We evaluated the trained model’s performance against held-out test data in a first experiment and found high accuracy levels across a broad spectrum of unseen questions, even in unseen courses. We further compared the performance of our model with that of certified human domain experts in a second experiment: we first assembled another test dataset from real historical exams – the historic grades contained in that data were awarded to students in a regulated, legally binding examination process; we therefore considered them as ground truth for our experiment. We then asked certified human domain experts and our model to grade the historic student answers again without disclosing the historic grades. Finally, we compared the hence obtained grades with the historic grades (our ground truth). We found that for the courses examined, the model deviated less from the official historic grades than the human re-graders – the model’s median absolute error was 44 % smaller than the human re-graders’, implying that the model is more consistent than humans in grading. These results suggest that leveraging AI enhanced grading can reduce human subjectivity, improve consistency and thus ultimately increase fairness.

arxiv情報

著者 Alexandra Gobrecht,Felix Tuma,Moritz Möller,Thomas Zöller,Mark Zakhvatkin,Alexandra Wuttig,Holger Sommerfeldt,Sven Schütt
発行日 2024-05-07 13:49:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク