Do We Need a Detailed Rubric for Automated Essay Scoring using Large Language Models?

要約

本研究では、大規模言語モデル(LLM)を用いた小論文自動採点(AES)における詳細なルーブリックの必要性と影響について調査する。LLMを用いたAESではルーブリックを用いることが標準的であるが、詳細なルーブリックを作成するには多大な労力を要し、トークンの使用量も増加する。我々は、TOEFL11データセットを用いて、ルーブリックの詳細度の違いが、複数のLLMの採点精度にどのような影響を与えるかを調べた。実験では、4つの異なるLLM(Claude 3.5 Haiku、Gemini 1.5 Flash、GPT-4o-mini、Llama 3 70B Instruct)を用いて、完全ルーブリック、簡易ルーブリック、ルーブリックなしの3つの条件を比較した。その結果、4つのモデルのうち3つは、簡略化されたルーブリックでも、トークンの使用量を大幅に減らしながら、詳細なルーブリックと同等の採点精度を維持した。しかし、1つのモデル(Gemini 1.5 Flash)は、より詳細なルーブリックを使用した場合に成績が低下した。この結果は、簡易ルーブリックがほとんどのLLMベースのAESアプリケーションにとって十分であり、採点精度を落とすことなく、より効率的な代替手段を提供することを示唆している。しかし、性能パターンはLLMによって異なるため、モデルごとの評価が重要である。

要約(オリジナル)

This study investigates the necessity and impact of a detailed rubric in automated essay scoring (AES) using large language models (LLMs). While using rubrics are standard in LLM-based AES, creating detailed rubrics requires substantial ef-fort and increases token usage. We examined how different levels of rubric detail affect scoring accuracy across multiple LLMs using the TOEFL11 dataset. Our experiments compared three conditions: a full rubric, a simplified rubric, and no rubric, using four different LLMs (Claude 3.5 Haiku, Gemini 1.5 Flash, GPT-4o-mini, and Llama 3 70B Instruct). Results showed that three out of four models maintained similar scoring accuracy with the simplified rubric compared to the detailed one, while significantly reducing token usage. However, one model (Gemini 1.5 Flash) showed decreased performance with more detailed rubrics. The findings suggest that simplified rubrics may be sufficient for most LLM-based AES applications, offering a more efficient alternative without compromis-ing scoring accuracy. However, model-specific evaluation remains crucial as per-formance patterns vary across different LLMs.

arxiv情報

著者 Lui Yoshida
発行日 2025-05-02 06:17:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク