要約
この論文では、学生の反応を詳細に分析し、学生に視覚的なハイライトを提供することで自動採点システムを強化する新しい採点タスクである「採点」を紹介します。
バイナリスコアを提供する従来のシステムとは異なり、「採点」は生徒の回答のセグメントを正しい、間違っている、または無関係であると特定して分類し、ゴールドアンサーからの省略を検出します。
このタスクのために、対象分野の専門家が細心の注意を払って厳選した新しいデータセットを紹介します。
私たちは、「マーキング」を、自然言語処理の分野で広く研究されている自然言語推論 (NLI) タスクの拡張として組み立てています。
NLI では、ゴールドアンサーと学生の回答がそれぞれ前提と仮説の役割を果たします。
その後、NLI と同様に、生徒の反応から含意、矛盾、中立性を特定する言語モデルをトレーニングし、ゴールドアンサーからの省略を特定するという追加の側面を追加します。
私たちの実験セットアップには、変換モデル、特に BERT と RoBERTa の使用と、e-SNLI データセットを使用したインテリジェントなトレーニング ステップが含まれます。
我々は、今後の研究の明確な軌道を定める「マーキング」タスクの複雑さを強調する広範なベースライン結果を提示します。
私たちの取り組みは、AI を活用した教育評価ツールの研究に新たな道を開くだけでなく、教育コミュニティにおける AI が将来的に取り組み、改善するための貴重なベンチマークも提供します。
コードとデータセットは https://github.com/luffycodes/marking にあります。
要約(オリジナル)
In this paper, we introduce ‘Marking’, a novel grading task that enhances automated grading systems by performing an in-depth analysis of student responses and providing students with visual highlights. Unlike traditional systems that provide binary scores, ‘marking’ identifies and categorizes segments of the student response as correct, incorrect, or irrelevant and detects omissions from gold answers. We introduce a new dataset meticulously curated by Subject Matter Experts specifically for this task. We frame ‘Marking’ as an extension of the Natural Language Inference (NLI) task, which is extensively explored in the field of Natural Language Processing. The gold answer and the student response play the roles of premise and hypothesis in NLI, respectively. We subsequently train language models to identify entailment, contradiction, and neutrality from student response, akin to NLI, and with the added dimension of identifying omissions from gold answers. Our experimental setup involves the use of transformer models, specifically BERT and RoBERTa, and an intelligent training step using the e-SNLI dataset. We present extensive baseline results highlighting the complexity of the ‘Marking’ task, which sets a clear trajectory for the upcoming study. Our work not only opens up new avenues for research in AI-powered educational assessment tools, but also provides a valuable benchmark for the AI in education community to engage with and improve upon in the future. The code and dataset can be found at https://github.com/luffycodes/marking.
arxiv情報
著者 | Shashank Sonkar,Naiming Liu,Debshila B. Mallick,Richard G. Baraniuk |
発行日 | 2024-04-22 16:00:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google