Can AI grade your essays? A comparative analysis of large language models and teacher ratings in multidimensional essay scoring

要約

生徒の作文を手動で評価および採点することは、時間はかかりますが、教師にとって重要な作業です。
大規模言語モデルなどの生成 AI の最近の開発は、教師の作文採点タスクを容易にする潜在的なソリューションを提供します。
私たちの研究では、ドイツの学生の作文を評価する際のオープンソースとクローズドソースの LLM のパフォーマンスと信頼性を評価し、その評価を 10 の事前定義された基準 (つまり、プロット ロジック、表現) にわたって 37 人の教師の評価と比較しました。
7 年生と 8 年生の生徒からの 20 件の実世界のエッセイのコーパスは、LLM のスコアリングについての深い洞察を提供することを目的として、GPT-3.5、GPT-4、o1、LLaMA 3-70B、Mixtral 8x7B の 5 つの LLM を使用して分析されました。
能力。
クローズドソースの GPT モデルは、内部の一貫性と人間の評価との整合性の両方においてオープンソース モデルよりも優れており、特に言語関連の基準において優れています。
新しい o1 モデルは他のすべての LLM よりも優れており、総合スコアで人間の評価を加えた Spearman の $r = 0.74$、および内部一貫性 $ICC=.80$ を達成しています。
これらの調査結果は、LLM ベースの評価が、特に言語関連の基準に関して小論文の評価をサポートすることで、教師の負担を軽減する有用なツールとなり得ることを示しています。
ただし、スコアが高くなる傾向があるため、モデルはコンテンツ品質の側面をより適切に捉えるためにさらに改良する必要があります。

要約(オリジナル)

The manual assessment and grading of student writing is a time-consuming yet critical task for teachers. Recent developments in generative AI, such as large language models, offer potential solutions to facilitate essay-scoring tasks for teachers. In our study, we evaluate the performance and reliability of both open-source and closed-source LLMs in assessing German student essays, comparing their evaluations to those of 37 teachers across 10 pre-defined criteria (i.e., plot logic, expression). A corpus of 20 real-world essays from Year 7 and 8 students was analyzed using five LLMs: GPT-3.5, GPT-4, o1, LLaMA 3-70B, and Mixtral 8x7B, aiming to provide in-depth insights into LLMs’ scoring capabilities. Closed-source GPT models outperform open-source models in both internal consistency and alignment with human ratings, particularly excelling in language-related criteria. The novel o1 model outperforms all other LLMs, achieving Spearman’s $r = .74$ with human assessments in the overall score, and an internal consistency of $ICC=.80$. These findings indicate that LLM-based assessment can be a useful tool to reduce teacher workload by supporting the evaluation of essays, especially with regard to language-related criteria. However, due to their tendency for higher scores, the models require further refinement to better capture aspects of content quality.

arxiv情報

著者 Kathrin Seßler,Maurice Fürstenberg,Babette Bühler,Enkelejda Kasneci
発行日 2024-11-25 12:33:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.HC パーマリンク