要約
大規模な言語モデル(LLMS)の最近の進歩により、ゼロショット自動エッセイスコアリング(AES)が可能になり、手動グレーディングと比較してエッセイスコアリングのコストと努力を削減する有望な方法を提供します。
ただし、既存のゼロショットアプローチのほとんどは、LLMSに依存して絶対スコアを直接生成します。これは、モデルバイアスと一貫性のないスコアリングにより、人間の評価から分岐することがよくあります。
これらの制限に対処するために、AESをペアワイズ比較タスクとして定式化する方法であるLLMベースの比較エッセイスコアリング(LCES)を提案します。
具体的には、2つのエッセイのどれが優れているかを判断し、そのような比較の多くを収集し、それらを連続スコアに変換するようにLLMSに指示します。
可能な比較の数がエッセイの数とともに2次に増加することを考慮すると、LankNetを使用してLLMの好みをスカラースコアに効率的に変換することにより、スケーラビリティを向上させます。
AESベンチマークデータセットを使用した実験は、LCESが計算効率を維持しながら、従来のゼロショット方法よりも精度を上回ることを示しています。
さらに、LCESは異なるLLMバックボーンにわたって堅牢であり、実際のゼロショットAESへの適用性を強調しています。
要約(オリジナル)
Recent advances in large language models (LLMs) have enabled zero-shot automated essay scoring (AES), providing a promising way to reduce the cost and effort of essay scoring in comparison with manual grading. However, most existing zero-shot approaches rely on LLMs to directly generate absolute scores, which often diverge from human evaluations owing to model biases and inconsistent scoring. To address these limitations, we propose LLM-based Comparative Essay Scoring (LCES), a method that formulates AES as a pairwise comparison task. Specifically, we instruct LLMs to judge which of two essays is better, collect many such comparisons, and convert them into continuous scores. Considering that the number of possible comparisons grows quadratically with the number of essays, we improve scalability by employing RankNet to efficiently transform LLM preferences into scalar scores. Experiments using AES benchmark datasets show that LCES outperforms conventional zero-shot methods in accuracy while maintaining computational efficiency. Moreover, LCES is robust across different LLM backbones, highlighting its applicability to real-world zero-shot AES.
arxiv情報
著者 | Takumi Shibata,Yuichi Miyamura |
発行日 | 2025-05-13 12:26:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google