Automated Long Answer Grading with RiceChem Dataset

要約

教育自然言語処理の分野における新しい研究分野である自動長答採点 (ALAG) を紹介します。
ALAG は、自動短答採点 (ASAG) や自動エッセイ採点 (AEG) とは異なり、事実に基づく長答の複雑さと多面性により、独自の課題を提示します。
ALAG を研究するために、大学の化学コースから派生したデータセットである RiceChem を導入します。このデータセットは、一般的な ASAG データセットよりも平均語数が著しく高い長答式の質問に対する実際の学生の回答を特徴としています。
我々は、ALAGをルーブリック含意問題として定式化し、自然言語推論モデルを使用して、ルーブリック項目によって表される各基準が生徒の応答で対処されているかどうかを検証することにより、ALAGに対する新しいアプローチを提案します。
この定式化により、転移学習に MNLI を効果的に使用できるようになり、RiceChem データセット上のモデルのパフォーマンスが大幅に向上します。
私たちは、ALAG におけるルーブリックベースの定式化の重要性を実証し、学生の反応のニュアンスを捉える点で従来のスコアベースのアプローチよりも優れていることを示します。
また、コールド スタート シナリオでのモデルのパフォーマンスも調査し、教育現場での実際の展開の考慮事項について貴重な洞察を提供します。
最後に、RiceChem で最先端のオープンソース大規模言語モデル (LLM) をベンチマークし、その結果を GPT モデルと比較し、ASAG と比較して ALAG の複雑さが増大していることを強調します。
ルーブリックベースのアプローチと MNLI からの転移学習の利点を活用しているにもかかわらず、RiceChem 上の LLM のパフォーマンスが低いことは、ALAG タスクによってもたらされる重大な困難を浮き彫りにしています。
この研究により、私たちは事実に基づいた長い解答の採点について新たな視点を提供し、この重要な分野でのさらなる研究を促進するための新しいデータセットを導入しました。
コード: \url{https://github.com/luffycodes/Automated-Long-Answer-Grading}。

要約(オリジナル)

We introduce a new area of study in the field of educational Natural Language Processing: Automated Long Answer Grading (ALAG). Distinguishing itself from Automated Short Answer Grading (ASAG) and Automated Essay Grading (AEG), ALAG presents unique challenges due to the complexity and multifaceted nature of fact-based long answers. To study ALAG, we introduce RiceChem, a dataset derived from a college chemistry course, featuring real student responses to long-answer questions with an average word count notably higher than typical ASAG datasets. We propose a novel approach to ALAG by formulating it as a rubric entailment problem, employing natural language inference models to verify whether each criterion, represented by a rubric item, is addressed in the student’s response. This formulation enables the effective use of MNLI for transfer learning, significantly improving the performance of models on the RiceChem dataset. We demonstrate the importance of rubric-based formulation in ALAG, showcasing its superiority over traditional score-based approaches in capturing the nuances of student responses. We also investigate the performance of models in cold start scenarios, providing valuable insights into the practical deployment considerations in educational settings. Lastly, we benchmark state-of-the-art open-sourced Large Language Models (LLMs) on RiceChem and compare their results to GPT models, highlighting the increased complexity of ALAG compared to ASAG. Despite leveraging the benefits of a rubric-based approach and transfer learning from MNLI, the lower performance of LLMs on RiceChem underscores the significant difficulty posed by the ALAG task. With this work, we offer a fresh perspective on grading long, fact-based answers and introduce a new dataset to stimulate further research in this important area. Code: \url{https://github.com/luffycodes/Automated-Long-Answer-Grading}.

arxiv情報

著者 Shashank Sonkar,Kangqi Ni,Lesa Tran Lu,Kristi Kincaid,John S. Hutchinson,Richard G. Baraniuk
発行日 2024-04-22 16:28:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク