Unveiling Scoring Processes: Dissecting the Differences between LLMs and Human Graders in Automatic Scoring

要約

大規模な言語モデル(LLM)は、構築された応答評価のために自動スコアリングを実行する際に強い可能性を示しています。
人間によって格付けされた構築された応答は通常、特定のグレーディングルーブリックに基づいていますが、LLMSの割り当てスコアはほとんど不明のままです。
また、AIのスコアリングプロセスが人間のスコアリングプロセスをどのように反映しているか、または同じグレーディング基準に固執するかどうかは不明です。
このギャップに対処するために、このペーパーでは、LLMが科学タスクに対する学生の書面による応答と人間のスコアとの整合性を獲得するために使用したグレーディングルーブリックを明らかにします。
また、アライメントを強化することでスコアリングの精度を向上させることができるかどうかを調べます。
具体的には、LLMSに、スコアを割り当て、人間のグレーディングルーブリックとのアライメントギャップを研究するために使用する分析的ルーブリックを生成するように促します。
LLM設定のさまざまな構成を使用した一連の実験に基づいて、ヒトとLLMグレーダーの間の顕著なアライメントギャップが明らかになります。
LLMはスコアリングタスクに迅速に適応できますが、多くの場合、ショートカットに頼り、人間のグレーディングで予想されるより深い論理的推論をバイパスします。
人間のグレーディングロジックを反映するように設計された高品質の分析ルーブリックを組み込むと、このギャップが軽減され、LLMSのスコアリング精度が向上することがわかりました。
これらの結果は、科学教育にLLMを適用する際の微妙なアプローチの必要性を強調し、効率的かつ正確な自動スコアリングを確保するためにLLM出力を人間の期待に合わせることの重要性を強調しています。

要約(オリジナル)

Large language models (LLMs) have demonstrated strong potential in performing automatic scoring for constructed response assessments. While constructed responses graded by humans are usually based on given grading rubrics, the methods by which LLMs assign scores remain largely unclear. It is also uncertain how closely AI’s scoring process mirrors that of humans or if it adheres to the same grading criteria. To address this gap, this paper uncovers the grading rubrics that LLMs used to score students’ written responses to science tasks and their alignment with human scores. We also examine whether enhancing the alignments can improve scoring accuracy. Specifically, we prompt LLMs to generate analytic rubrics that they use to assign scores and study the alignment gap with human grading rubrics. Based on a series of experiments with various configurations of LLM settings, we reveal a notable alignment gap between human and LLM graders. While LLMs can adapt quickly to scoring tasks, they often resort to shortcuts, bypassing deeper logical reasoning expected in human grading. We found that incorporating high-quality analytical rubrics designed to reflect human grading logic can mitigate this gap and enhance LLMs’ scoring accuracy. These results underscore the need for a nuanced approach when applying LLMs in science education and highlight the importance of aligning LLM outputs with human expectations to ensure efficient and accurate automatic scoring.

arxiv情報

著者 Xuansheng Wu,Padmaja Pravin Saraf,Gyeonggeon Lee,Ehsan Latif,Ninghao Liu,Xiaoming Zhai
発行日 2025-02-21 16:45:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク