要約
大規模言語モデル (LLM) は、さまざまなタスクで顕著なパフォーマンスを示し、一般に広く利用されています。
しかし、盗作やスパム行為など、LLM の悪用に対する懸念が高まっているため、微調整された分類器や統計手法を含む複数の検出器が開発されています。
この研究では、外部のパラフレーズに依存するのではなく、LLM にプロンプトを装備して、これらの検出器の脆弱性を評価します。
検出器を回避するためのプロンプトを自動的に構築する、新しい置換ベースのインコンテキスト サンプル最適化手法 (SICO) を提案します。
SICO は、プロンプトを生成するために人間が作成したサンプルが 40 個しかなく、限られた数の LLM 推論しか必要としないため、コスト効率が高くなります。
さらに、タスク固有のプロンプトを構築すると、幅広い検出器に対して汎用的に使用できます。
3 つの実際のタスクにわたる広範な実験により、SICO が言い換えベースラインを大幅に上回り、GPT-3.5 が 6 つの検出器を回避して AUC を平均 0.5 減少させることができることが実証されました。
さらに、人間による包括的な評価により、SICO が生成したテキストは、高い知覚不可能性を維持しながら、人間レベルの可読性とタスク完了率を達成していることが示されています。
最後に、SICO 攻撃に対する検出器の堅牢性を強化するためのアンサンブル アプローチを提案します。
コードは https://github.com/ColinLu50/Evade-GPT-Detector で公開されています。
要約(オリジナル)
Large language models (LLMs) have shown remarkable performance in various tasks and have been extensively utilized by the public. However, the increasing concerns regarding the misuse of LLMs, such as plagiarism and spamming, have led to the development of multiple detectors, including fine-tuned classifiers and statistical methods. In this study, we equip LLMs with prompts, rather than relying on an external paraphraser, to evaluate the vulnerability of these detectors. We propose a novel Substitution-based In-Context example Optimization method (SICO) to automatically construct prompts for evading the detectors. SICO is cost-efficient as it requires only 40 human-written examples and a limited number of LLM inferences to generate a prompt. Moreover, once a task-specific prompt has been constructed, it can be universally used against a wide range of detectors. Extensive experiments across three real-world tasks demonstrate that SICO significantly outperforms the paraphraser baselines and enables GPT-3.5 to successfully evade six detectors, decreasing their AUC by 0.5 on average. Furthermore, a comprehensive human evaluation show that the SICO-generated text achieves human-level readability and task completion rates, while preserving high imperceptibility. Finally, we propose an ensemble approach to enhance the robustness of detectors against SICO attack. The code is publicly available at https://github.com/ColinLu50/Evade-GPT-Detector.
arxiv情報
著者 | Ning Lu,Shengcai Liu,Rui He,Qi Wang,Yew-Soon Ong,Ke Tang |
発行日 | 2024-05-15 08:00:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google