ArguGPT: evaluating, understanding and identifying argumentative essays generated by GPT models


タイトル: GPTモデルによって生成された論文を評価、理解、識別するArguGPT

– 電子教育分野では、AIによって生成されたコンテンツ(AIGC)が課題となっている。
– 教師たちは、裸眼かツールを使って大型言語モデルによって生成されたテキストを検出できる必要がある。
– また、AIGCのレキシカル、構文、スタイル上の特徴を理解する必要性が高まっている。
– このような課題に対処するため、ArguGPTと呼ばれるバランスのとれたコーパスを使用する。
– このコーパスは、3つのソースからのエッセイプロンプトに対する7つのGPTモデルによって生成された4,038の論文で構成されている。
– 機械生成のテキストと、プロンプトに合わせて3つのスコアレベルで一致したほぼ同数の人間によるエッセイがペアになっている。
– 次に、英語のインストラクターに機械のエッセイと人間のエッセイを区別するように依頼する。
– 結果として、インストラクターが初めて機械生成のエッセイに対して接触した場合、正解率は61%であったが、最小限の自己トレーニングの後、67%に上昇した。
– 次に、これらのエッセイの言語分析を行い、機械はより複雑な構文構造を持つ文を生成するのに対し、人間のエッセイはよりレキシカルに複雑であることが示された。
– 最後に、既存のAIGC検出器をテストし、SVMとRoBERTaを使用した独自の検出器を構築する。
– 結果として、ArguGPTのトレーニングセットで調整されたRoBERTaは、エッセイと文レベルの分類で90%以上の正解率を達成することが示された。
– 現在まで、これが大型言語モデルによって生成された論文の包括的な分析の最初のものである。
– ArguGPTとモデルで生成された機械のエッセイは、で公開される予定である。


AI generated content (AIGC) presents considerable challenge to educators around the world. Instructors need to be able to detect such text generated by large language models, either with the naked eye or with the help of some tools. There is also growing need to understand the lexical, syntactic and stylistic features of AIGC. To address these challenges in English language teaching, we first present ArguGPT, a balanced corpus of 4,038 argumentative essays generated by 7 GPT models in response to essay prompts from three sources: (1) in-class or homework exercises, (2) TOEFL and (3) GRE writing tasks. Machine-generated texts are paired with roughly equal number of human-written essays with three score levels matched in essay prompts. We then hire English instructors to distinguish machine essays from human ones. Results show that when first exposed to machine-generated essays, the instructors only have an accuracy of 61% in detecting them. But the number rises to 67% after one round of minimal self-training. Next, we perform linguistic analyses of these essays, which show that machines produce sentences with more complex syntactic structures while human essays tend to be lexically more complex. Finally, we test existing AIGC detectors and build our own detectors using SVMs and RoBERTa. Results suggest that a RoBERTa fine-tuned with the training set of ArguGPT achieves above 90% accuracy in both essay- and sentence-level classification. To the best of our knowledge, this is the first comprehensive analysis of argumentative essays produced by generative large language models. Machine-authored essays in ArguGPT and our models will be made publicly available at


著者 Yikang Liu,Ziyin Zhang,Wanyang Zhang,Shisen Yue,Xiaojing Zhao,Xinyuan Cheng,Yiwen Zhang,Hai Hu
発行日 2023-04-16 01:50:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, OpenAI

カテゴリー: cs.CL パーマリンク