When Automated Assessment Meets Automated Content Generation: Examining Text Quality in the Era of GPTs

要約

機械学習 (ML) モデルを使用してテキスト データを評価およびスコアリングすることは、自然言語処理、情報検索、検索と推奨、オンライン コンテンツの信頼性評価などのさまざまなコンテキストでますます普及してきています。
ML とテキストの交差点で大きな混乱をもたらしているのは、生成事前トレーニング済みトランスフォーマー (GPT) などのテキスト生成大規模言語モデルです。
私たちは、人間のコンテンツでトレーニングされた ML ベースのスコアリング モデルが人間によって生成されたコンテンツの品質を評価する方法と GPT の違いを経験的に評価します。
そのために、エッセイのスコアリング ML モデル、人間のエッセイと ML で生成されたエッセイ、および回答者のタイプ、プロンプトのジャンル、および評価モデルに使用される ML モデルの影響を最小限に考慮する統計モデルを包含する分析フレームワークを提案します。
人間が作成した 18,460 件の GPT ベースのエッセイを含む豊富なテストベッドが利用されています。
ベンチマーク分析の結果、Transformer の事前トレーニング済み言語モデル (PLM) は、CNN/RNN や特徴ベースの ML 手法と比較して、人間のエッセイの品質をより正確にスコアリングすることが明らかになりました。
興味深いことに、Transformer PLM は、人間が作成したドキュメントと比較して、GPT で生成されたテキストのスコアが平均 10 ~ 15\% 高い傾向があることがわかりました。
逆に、従来の深層学習モデルと特徴ベースの ML モデルでは、人間のテキストのスコアがかなり高くなります。
さらなる分析により、トランスフォーマー PLM は人間のテキストに対してのみ微調整されていますが、おそらく事前トレーニングでの馴染み/重複のため、GPT で生成されたテキストにのみ現れる特定のトークンにより顕著に注意を払っていることが明らかになりました。
私たちのフレームワークと結果は、テキストの自動スコアリングが生成 AI によって中断される可能性があるテキスト分類設定に影響を及ぼします。

要約(オリジナル)

The use of machine learning (ML) models to assess and score textual data has become increasingly pervasive in an array of contexts including natural language processing, information retrieval, search and recommendation, and credibility assessment of online content. A significant disruption at the intersection of ML and text are text-generating large-language models such as generative pre-trained transformers (GPTs). We empirically assess the differences in how ML-based scoring models trained on human content assess the quality of content generated by humans versus GPTs. To do so, we propose an analysis framework that encompasses essay scoring ML-models, human and ML-generated essays, and a statistical model that parsimoniously considers the impact of type of respondent, prompt genre, and the ML model used for assessment model. A rich testbed is utilized that encompasses 18,460 human-generated and GPT-based essays. Results of our benchmark analysis reveal that transformer pretrained language models (PLMs) more accurately score human essay quality as compared to CNN/RNN and feature-based ML methods. Interestingly, we find that the transformer PLMs tend to score GPT-generated text 10-15\% higher on average, relative to human-authored documents. Conversely, traditional deep learning and feature-based ML models score human text considerably higher. Further analysis reveals that although the transformer PLMs are exclusively fine-tuned on human text, they more prominently attend to certain tokens appearing only in GPT-generated text, possibly due to familiarity/overlap in pre-training. Our framework and results have implications for text classification settings where automated scoring of text is likely to be disrupted by generative AI.

arxiv情報

著者 Marialena Bevilacqua,Kezia Oketch,Ruiyang Qin,Will Stamey,Xinyuan Zhang,Yi Gan,Kai Yang,Ahmed Abbasi
発行日 2023-09-25 19:32:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク