Can GPT-4 do L2 analytic assessment?

要約

第二言語 (L2) の習熟度を評価するための自動エッセイ採点 (AES) は、何十年にもわたって教育現場で使用されているしっかりと確立されたテクノロジーです。
総合的なスコアリングでは人間のパフォーマンスに匹敵する、あるいはそれを上回る AES の進歩が見られますが、分析スコアリングは人間のスコアリング プロセスから欠陥や欠点を受け継いでおり、依然として問題に直面しています。
最近の大規模言語モデルの導入により、L2 ライティング能力の特定の側面の評価を自動化する新たな機会が生まれました。
この論文では、欧州共通参照枠に基づく総合的なスコアが注釈付けされた公的に利用可能なデータセットに対してゼロショット方式で GPT-4 を使用した一連の実験を実行し、その基礎となる分析コンポーネントに関する詳細な情報を抽出することを目的としています。
自動的に予測された分析スコアと、個々の習熟度コンポーネントに関連する複数の特徴との間に有意な相関関係が観察されました。

要約(オリジナル)

Automated essay scoring (AES) to evaluate second language (L2) proficiency has been a firmly established technology used in educational contexts for decades. Although holistic scoring has seen advancements in AES that match or even exceed human performance, analytic scoring still encounters issues as it inherits flaws and shortcomings from the human scoring process. The recent introduction of large language models presents new opportunities for automating the evaluation of specific aspects of L2 writing proficiency. In this paper, we perform a series of experiments using GPT-4 in a zero-shot fashion on a publicly available dataset annotated with holistic scores based on the Common European Framework of Reference and aim to extract detailed information about their underlying analytic components. We observe significant correlations between the automatically predicted analytic scores and multiple features associated with the individual proficiency components.

arxiv情報

著者 Stefano Bannò,Hari Krishna Vydana,Kate M. Knill,Mark J. F. Gales
発行日 2024-04-29 10:00:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク