要約
この論文では、経験的にも理論的にも、いくつかの AI テキスト検出器が実際のシナリオでは信頼できないことを示します。
私たちは経験的に、大規模言語モデル (LLM) の上に軽い言い換えを適用する言い換え攻撃が、電子透かしスキームやニューラル ネットワーク ベースの検出器やゼロショットを使用した検出器を含む、あらゆる範囲の検出器を突破できることを示しています。
分類子。
私たちの実験は、言い換え攻撃を回避するように設計された検索ベースの検出器が、依然として再帰的言い換えに対して脆弱であることを示しています。
次に、言語モデルがより洗練され、人間のテキストのエミュレーションが向上するにつれて、可能な限り最高の検出器のパフォーマンスが低下することを示す理論的に不可能な結果を提供します。
人間のテキストを模倣しようとする十分に高度な言語モデルの場合、可能な限り最高の検出器であっても、ランダム分類器よりわずかに優れたパフォーマンスしか得られない可能性があります。
私たちの結果は、特定の文体、巧みなプロンプトデザイン、テキストの言い換えなどの特定のシナリオを捉えるのに十分な一般性を持っています。
また、不可能性の結果を拡張して、真のランダム性の代わりに擬似乱数ジェネレーターが AI テキスト生成に使用される場合を含めます。
すべての多項式時間で計算可能な検出器の無視できる補正項でも同じ結果が当てはまることを示します。
最後に、透かし入れスキームで保護された LLM であっても、敵対的な人間が隠された LLM テキスト署名を推測し、それを人間が生成したテキストに追加して、LLM によって生成されたテキストとして検出され、潜在的に評判に損害を与える可能性があるスプーフィング攻撃に対して脆弱である可能性があることを示します。
開発者。
私たちは、これらの結果によって、AI が生成したテキストの倫理的かつ信頼性の高い使用について、コミュニティでの正直な会話が始まると信じています。
要約(オリジナル)
In this paper, both empirically and theoretically, we show that several AI-text detectors are not reliable in practical scenarios. Empirically, we show that paraphrasing attacks, where a light paraphraser is applied on top of a large language model (LLM), can break a whole range of detectors, including ones using watermarking schemes as well as neural network-based detectors and zero-shot classifiers. Our experiments demonstrate that retrieval-based detectors, designed to evade paraphrasing attacks, are still vulnerable to recursive paraphrasing. We then provide a theoretical impossibility result indicating that as language models become more sophisticated and better at emulating human text, the performance of even the best-possible detector decreases. For a sufficiently advanced language model seeking to imitate human text, even the best-possible detector may only perform marginally better than a random classifier. Our result is general enough to capture specific scenarios such as particular writing styles, clever prompt design, or text paraphrasing. We also extend the impossibility result to include the case where pseudorandom number generators are used for AI-text generation instead of true randomness. We show that the same result holds with a negligible correction term for all polynomial-time computable detectors. Finally, we show that even LLMs protected by watermarking schemes can be vulnerable against spoofing attacks where adversarial humans can infer hidden LLM text signatures and add them to human-generated text to be detected as text generated by the LLMs, potentially causing reputational damage to their developers. We believe these results can open an honest conversation in the community regarding the ethical and reliable use of AI-generated text.
arxiv情報
著者 | Vinu Sankar Sadasivan,Aounon Kumar,Sriram Balasubramanian,Wenxiao Wang,Soheil Feizi |
発行日 | 2023-06-28 20:29:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google