Large Language Models can be Guided to Evade AI-Generated Text Detection

要約

大規模言語モデル (LLM) は、エッセイの執筆や質問への回答など、さまざまなタスクで優れたパフォーマンスを示しています。
ただし、盗作やスパム送信などの有害な結果につながる可能性がある、これらのモデルの潜在的な誤用に対処することが重要です。
最近、微調整された分類器やさまざまな統計的手法を含む、いくつかの検出器が提案されています。
この研究では、慎重に作成されたプロンプトを利用して、LLM がこれらの検出システムを効果的に回避できることを明らかにしました。
我々は、このようなプロンプトを自動的に生成する新しい置換ベースのインコンテキスト サンプル最適化手法 (SICO) を提案します。
LLM が悪用される可能性がある 3 つの現実世界のタスクにおいて、SICO は ChatGPT が 6 つの既存の検出器を回避できるようにすることに成功し、平均で 0.54 の大幅な AUC 低下を引き起こしました。
驚くべきことに、ほとんどの場合、これらの検出器のパフォーマンスはランダム分類器よりもさらに悪くなります。
これらの結果は、既存の検出器の脆弱性を明確に明らかにしています。
最後に、SICO の強力なパフォーマンスは、この分野の新しい検出器の信頼できる評価プロトコルであることを示唆しています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated exceptional performance in a variety of tasks, including essay writing and question answering. However, it is crucial to address the potential misuse of these models, which can lead to detrimental outcomes such as plagiarism and spamming. Recently, several detectors have been proposed, including fine-tuned classifiers and various statistical methods. In this study, we reveal that with the aid of carefully crafted prompts, LLMs can effectively evade these detection systems. We propose a novel Substitution-based In-Context example Optimization method (SICO) to automatically generate such prompts. On three real-world tasks where LLMs can be misused, SICO successfully enables ChatGPT to evade six existing detectors, causing a significant 0.54 AUC drop on average. Surprisingly, in most cases these detectors perform even worse than random classifiers. These results firmly reveal the vulnerability of existing detectors. Finally, the strong performance of SICO suggests itself as a reliable evaluation protocol for any new detector in this field.

arxiv情報

著者 Ning Lu,Shengcai Liu,Rui He,Qi Wang,Ke Tang
発行日 2023-05-19 11:25:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク