要約
生成 AI の最近の革命的な進歩により、大規模言語モデル (LLM) による現実的で一貫したテキストの生成が可能になりました。
生成されたテキストの品質に関する評価指標は数多く存在しますが、複雑で要求の厳しいライティング評価において LLM がどの程度優れたパフォーマンスを発揮するかについての厳密な評価は依然として不足しています。
この研究では、Graduate Record Exam (GRE) の分析的ライティング評価のために、10 人の主要な LLM によって作成されたエッセイを調査します。
これらのエッセイは、人間の評価者と、GRE スコアリング パイプラインで使用されている e-rater 自動スコアリング エンジンの両方を使用して評価されました。
注目すべき点は、トップパフォーマンスの Gemini と GPT-4o がそれぞれ 4.78 と 4.67 の平均スコアを獲得しており、「全体的に思慮深く、問題についてよく練られた分析を行っており、意味を明確に伝えている」と「問題について有能な分析を示しており、意味を明確に伝えている」の間に位置しています。
GRE スコアリング ガイドラインに従って、許容可能な明瞭さで意味を伝えます。
また、同じまたは異なる LLM によって生成されたエッセイでトレーニングされた検出器を使用して、これらのエッセイの検出精度も評価しました。
要約(オリジナル)
The recent revolutionary advance in generative AI enables the generation of realistic and coherent texts by large language models (LLMs). Despite many existing evaluation metrics on the quality of the generated texts, there is still a lack of rigorous assessment of how well LLMs perform in complex and demanding writing assessments. This study examines essays generated by ten leading LLMs for the analytical writing assessment of the Graduate Record Exam (GRE). We assessed these essays using both human raters and the e-rater automated scoring engine as used in the GRE scoring pipeline. Notably, the top-performing Gemini and GPT-4o received an average score of 4.78 and 4.67, respectively, falling between ‘generally thoughtful, well-developed analysis of the issue and conveys meaning clearly’ and ‘presents a competent analysis of the issue and conveys meaning with acceptable clarity’ according to the GRE scoring guideline. We also evaluated the detection accuracy of these essays, with detectors trained on essays generated by the same and different LLMs.
arxiv情報
著者 | Yang Zhong,Jiangang Hao,Michael Fauss,Chen Li,Yuan Wang |
発行日 | 2024-11-13 04:57:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google