Modeling and Analyzing Scorer Preferences in Short-Answer Math Questions

要約

短答式の質問を含む自由回答式の質問に対する学生の回答の自動採点は、多数の回答に対応できる大きな可能性を秘めています。
自動スコアリングの最近のアプローチは、教師あり学習、つまり人間が提供したスコアラベルを使用した少数の応答に対する分類器のトレーニングまたは言語モデルの微調整に依存しています。
ただし、採点は主観的なプロセスであるため、人間による採点にはノイズが多く、採点者によって大きく変動する可能性があります。
この論文では、自動採点タスクにおける各人間の採点者の個人的な好みと傾向を考慮した一連のモデルを調査します。
これらのモデルを、複数の異なる人間の採点者によって各回答が (多くの場合異なる方法で) 採点される短答式数学の回答データセットに適用します。
私たちは定量的な実験を行って、スコアラー モデルが自動スコアリングの精度の向上につながることを示します。
また、定量的な実験やケーススタディを実施し、得点者の個人的な好みや傾向を分析します。
私たちは、スコアラーをいくつかの明らかなクラスターにグループ化し、各クラスターが明確な特徴を持っていることを発見し、それらを詳細に分析しました。

要約(オリジナル)

Automated scoring of student responses to open-ended questions, including short-answer questions, has great potential to scale to a large number of responses. Recent approaches for automated scoring rely on supervised learning, i.e., training classifiers or fine-tuning language models on a small number of responses with human-provided score labels. However, since scoring is a subjective process, these human scores are noisy and can be highly variable, depending on the scorer. In this paper, we investigate a collection of models that account for the individual preferences and tendencies of each human scorer in the automated scoring task. We apply these models to a short-answer math response dataset where each response is scored (often differently) by multiple different human scorers. We conduct quantitative experiments to show that our scorer models lead to improved automated scoring accuracy. We also conduct quantitative experiments and case studies to analyze the individual preferences and tendencies of scorers. We found that scorers can be grouped into several obvious clusters, with each cluster having distinct features, and analyzed them in detail.

arxiv情報

著者 Mengxue Zhang,Neil Heffernan,Andrew Lan
発行日 2023-06-01 15:22:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク