要約
大規模言語モデル (LLM) は、テキスト生成タスクにおいて優れた機能を発揮しました。
ただし、これらのモデルの利用には、盗作、フェイクニュースの拡散、教育演習の問題などを含む (ただしこれらに限定されない) 固有のリスクが伴います。
これらの懸念に対処するためにいくつかの検出器が提案されていますが、特に学生の作文の文脈において、敵対的な摂動に対するそれらの有効性はほとんど解明されていません。
この論文は、検出を回避しながら高品質のエッセイを生成すると期待されるさまざまなテキスト摂動手法を使用して、AI によって生成された学生のエッセイ データセットである AIG-ASAP を構築することで、このギャップを埋めることを目的としています。
実証実験を通じて、AIG-ASAP データセット上の現在の AIGC 検出器のパフォーマンスを評価します。
その結果、単純な自動敵対的攻撃を使用して既存の検出器を簡単に回避できることが明らかになりました。
具体的には、生成されたエッセイの品質を維持しながら、検出を効果的に回避する単語置換および文置換摂動手法を検討します。
これは、教育分野で AI によって生成された学生の作文を検出するための、より正確で堅牢な方法が緊急に必要であることを浮き彫りにしています。
要約(オリジナル)
Large language models (LLMs) have exhibited remarkable capabilities in text generation tasks. However, the utilization of these models carries inherent risks, including but not limited to plagiarism, the dissemination of fake news, and issues in educational exercises. Although several detectors have been proposed to address these concerns, their effectiveness against adversarial perturbations, specifically in the context of student essay writing, remains largely unexplored. This paper aims to bridge this gap by constructing AIG-ASAP, an AI-generated student essay dataset, employing a range of text perturbation methods that are expected to generate high-quality essays while evading detection. Through empirical experiments, we assess the performance of current AIGC detectors on the AIG-ASAP dataset. The results reveal that the existing detectors can be easily circumvented using straightforward automatic adversarial attacks. Specifically, we explore word substitution and sentence substitution perturbation methods that effectively evade detection while maintaining the quality of the generated essays. This highlights the urgent need for more accurate and robust methods to detect AI-generated student essays in the education domain.
arxiv情報
| 著者 | Xinlin Peng,Ying Zhou,Ben He,Le Sun,Yingfei Sun |
| 発行日 | 2024-02-01 08:11:56+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google