ASAG2024: A Combined Benchmark for Short Answer Grading

要約

自由回答式の質問は、自由回答式の質問よりも完全な理解をテストするものであり、多くの場合、好まれる評価方法です。
ただし、自由回答式の質問は採点が面倒で、個人的な偏見が入りやすいものです。
したがって、自動化によってグレーディングプロセスをスピードアップする取り組みが行われてきました。
短答採点 (SAG) システムは、学生の解答を自動的に採点することを目的としています。
SAG の方法と機能は増加しているにもかかわらず、さまざまな科目、採点尺度、および分布にまたがる包括的な短答式採点ベンチマークは存在しません。
したがって、一般化可能性の観点から、現在の自動採点方法の機能を評価することは困難です。
この予備作業では、自動グレーディング システムの比較を容易にするために、組み合わせた ASAG2024 ベンチマークを導入します。
一般的に使用される 7 つの短答採点データセットを共通の構造と採点尺度で結合します。
私たちのベンチマークでは、一連の最近の SAG メソッドを評価し、LLM ベースのアプローチが新たな高スコアを達成したものの、人間のパフォーマンスにはまだ程遠いことが明らかになりました。
これにより、ヒューマンマシン SAG システムに関する将来の研究への道が開かれます。

要約(オリジナル)

Open-ended questions test a more thorough understanding than closed-ended questions and are often a preferred assessment method. However, open-ended questions are tedious to grade and subject to personal bias. Therefore, there have been efforts to speed up the grading process through automation. Short Answer Grading (SAG) systems aim to automatically score students’ answers. Despite growth in SAG methods and capabilities, there exists no comprehensive short-answer grading benchmark across different subjects, grading scales, and distributions. Thus, it is hard to assess the capabilities of current automated grading methods in terms of their generalizability. In this preliminary work, we introduce the combined ASAG2024 benchmark to facilitate the comparison of automated grading systems. Combining seven commonly used short-answer grading datasets in a common structure and grading scale. For our benchmark, we evaluate a set of recent SAG methods, revealing that while LLM-based approaches reach new high scores, they still are far from reaching human performance. This opens up avenues for future research on human-machine SAG systems.

arxiv情報

著者 Gérôme Meyer,Philip Breuer,Jonathan Fürst
発行日 2024-09-27 09:56:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク