Leveraging Human Feedback to Scale Educational Datasets: Combining Crowdworkers and Comparative Judgement

要約

機械学習モデルには、教育現場で多くの潜在的に有益な応用例がありますが、その開発に対する主な障壁は、これらのモデルをトレーニングするのに十分なデータを確保することです。
教育データのラベル付けは従来、複雑な複数クラスのルーブリックを使用する高度なスキルを持った評価者に依存していたため、プロセスにコストがかかり、拡張が困難でした。
代替の、よりスケーラブルなアプローチは、学生の作業を評価するために専門家ではないクラウドワーカーを使用することです。ただし、専門家ではないワーカーを使用する場合、十分に高いレベルの精度と評価者間の信頼性を維持することは困難です。
この論文では、複雑な生徒データを評価するために専門家ではないクラウドワーカーと比較判断を使用して調査する 2 つの実験について報告します。
自由形式の読解問題に対する学生の反応を評価するためにクラウドワーカーが雇われました。
クラウドワーカーは 2 つの条件のいずれかにランダムに割り当てられました。1 つは回答が正しいか間違っているかを決定するよう求められる対照条件 (つまり、断定的判断)、もう 1 つは治療条件で、同じ質問と回答を示されますが、その代わりに
2 つの候補の回答のうちどちらがより正しいかを判断するように求められます (つまり、比較/好みに基づく判断)。
比較判断を使用すると、両方のタスクにおいて評価者間の信頼性が大幅に向上することがわかりました。
これらの結果は、教育評価の分野における比較判断の利点に関する十分に確立された文献、および比較判断がモデルの出力に対する人間によるフィードバックを提供するための好ましい方法になりつつある人工知能研究の最近の傾向と一致しています。
専門家ではないクラウドワーカーと作業する場合。
しかし、私たちの知る限り、これらの結果は新規であり、比較判断とクラウドワーカーを組み合わせて教育データを評価することの有益な効果を実証する上で重要です。

要約(オリジナル)

Machine Learning models have many potentially beneficial applications in education settings, but a key barrier to their development is securing enough data to train these models. Labelling educational data has traditionally relied on highly skilled raters using complex, multi-class rubrics, making the process expensive and difficult to scale. An alternative, more scalable approach could be to use non-expert crowdworkers to evaluate student work, however, maintaining sufficiently high levels of accuracy and inter-rater reliability when using non-expert workers is challenging. This paper reports on two experiments investigating using non-expert crowdworkers and comparative judgement to evaluate complex student data. Crowdworkers were hired to evaluate student responses to open-ended reading comprehension questions. Crowdworkers were randomly assigned to one of two conditions: the control, where they were asked to decide whether answers were correct or incorrect (i.e., a categorical judgement), or the treatment, where they were shown the same question and answers, but were instead asked to decide which of two candidate answers was more correct (i.e., a comparative/preference-based judgement). We found that using comparative judgement substantially improved inter-rater reliability on both tasks. These results are in-line with well-established literature on the benefits of comparative judgement in the field of educational assessment, as well as with recent trends in artificial intelligence research, where comparative judgement is becoming the preferred method for providing human feedback on model outputs when working with non-expert crowdworkers. However, to our knowledge, these results are novel and important in demonstrating the beneficial effects of using the combination of comparative judgement and crowdworkers to evaluate educational data.

arxiv情報

著者 Owen Henkel,Libby Hills
発行日 2023-11-09 18:02:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク