要約
大規模言語モデル (LLM) は、さまざまなタスクで顕著なパフォーマンスを示し、一般に広く利用されています。
しかし、盗作やスパム行為など、LLM の悪用に対する懸念が高まっているため、微調整された分類器や統計手法を含む複数の検出器が開発されています。
この研究では、外部のパラフレーズに依存するのではなく、LLM にプロンプトを装備して、これらの検出器の脆弱性を評価します。
検出器を回避するためのプロンプトを自動的に構築する、新しい置換ベースのインコンテキスト サンプル最適化手法 (SICO) を提案します。
SICO は、プロンプトを生成するために人間が作成したサンプルが 40 個しかなく、限られた数の LLM 推論しか必要としないため、コスト効率が高くなります。
さらに、タスク固有のプロンプトを構築すると、幅広い検出器に対して汎用的に使用できます。
3 つの実際のタスクにわたる広範な実験により、SICO が言い換えベースラインを大幅に上回り、GPT-3.5 が 6 つの検出器を回避して AUC を平均 0.5 減少させることができることが実証されました。
さらに、包括的な人間による評価と実際の環境での検証実験により、SICO が生成したテキストが人間レベルの可読性とタスク完了率を達成していることが示されています。
最後に、SICO の強力なパフォーマンスは、将来の検出器の信頼できる評価ツールとしての可能性を示しています。
コードとデータは https://github.com/ColinLu50/Evade-GPT-Detector にあります。
要約(オリジナル)
Large language models (LLMs) have shown remarkable performance in various tasks and have been extensively utilized by the public. However, the increasing concerns regarding the misuse of LLMs, such as plagiarism and spamming, have led to the development of multiple detectors, including fine-tuned classifiers and statistical methods. In this study, we equip LLMs with prompts, rather than relying on an external paraphraser, to evaluate the vulnerability of these detectors. We propose a novel Substitution-based In-Context example Optimization method (SICO) to automatically construct prompts for evading the detectors. SICO is cost-efficient as it requires only 40 human-written examples and a limited number of LLM inferences to generate a prompt. Moreover, once a task-specific prompt has been constructed, it can be universally used against a wide range of detectors. Extensive experiments across three real-world tasks demonstrate that SICO significantly outperforms the paraphraser baselines and enables GPT-3.5 to successfully evade six detectors, decreasing their AUC by 0.5 on average. Furthermore, a comprehensive human evaluation as well as a validation experiment in the wild show that the SICO-generated text achieves human-level readability and task completion rates. Finally, the strong performance of SICO exhibits its potential as a reliable evaluation tool for future detectors. The codes and data are located on https://github.com/ColinLu50/Evade-GPT-Detector.
arxiv情報
著者 | Ning Lu,Shengcai Liu,Rui He,Qi Wang,Yew-Soon Ong,Ke Tang |
発行日 | 2023-12-14 12:21:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google