Is GPT-4 Alone Sufficient for Automated Essay Scoring?: A Comparative Judgment Approach Based on Rater Cognition

要約

大規模言語モデル (LLM) は、自動エッセイ採点 (AES) において有望であることが示されていますが、そのゼロショットおよび少数ショットのパフォーマンスは、最先端のモデルや人間の評価者と比較すると不十分であることがよくあります。
ただし、実際の教育現場ではさまざまなエッセイのプロンプトやルーブリックが使用されるため、特定のタスクごとに LLM を微調整することは現実的ではありません。
この研究は、LLM と AES の比較判断 (CJ) を組み合わせた新しいアプローチを提案し、ゼロショット プロンプトを使用して 2 つのエッセイから選択します。
我々は、LLM を使用したエッセイの採点において、CJ メソッドが従来のルーブリックベースの採点を上回ることを実証します。

要約(オリジナル)

Large Language Models (LLMs) have shown promise in Automated Essay Scoring (AES), but their zero-shot and few-shot performance often falls short compared to state-of-the-art models and human raters. However, fine-tuning LLMs for each specific task is impractical due to the variety of essay prompts and rubrics used in real-world educational contexts. This study proposes a novel approach combining LLMs and Comparative Judgment (CJ) for AES, using zero-shot prompting to choose between two essays. We demonstrate that a CJ method surpasses traditional rubric-based scoring in essay scoring using LLMs.

arxiv情報

著者 Seungju Kim,Meounggun Jo
発行日 2024-07-08 08:37:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CY パーマリンク