要約
LLM を規制なく使用すると、盗作、フェイク ニュースの生成、スパム送信などの悪意のある結果につながる可能性があります。したがって、LLM の責任ある使用を保証するには、AI によって生成されたテキストを確実に検出することが重要となります。
最近の研究では、生成されたテキスト出力に存在する特定のモデル署名を使用するか、特定のパターンを刻印する透かし技術を適用することで、この問題に取り組もうとしています。
この論文では、これらの検出器が実際のシナリオでは信頼できないことを示します。
特に、AI テキストに適用する再帰的言い換え攻撃を開発します。これは、電子透かしスキームを使用する検出器、ニューラル ネットワーク ベースの検出器、ゼロショット分類器、検索ベースの検出器を含む、あらゆる範囲の検出器を破ることができます。
。
私たちの実験には長さ約 300 トークンの通路が含まれており、比較的長い通路の場合でも検出器の感度が示されています。
また、人間の研究やテキストベンチマークの困惑スコアや精度などの指標によって測定したところ、再帰的言い換えはテキストの品質をわずかに低下させるだけであることも観察されています。
さらに、透かし入れスキームで保護されている LLM であっても、人間が書いたテキストを AI が生成したものとして分類するよう検出器を誤らせることを目的としたスプーフィング攻撃に対して脆弱である可能性があり、開発者に風評被害を引き起こす可能性があることを示します。
特に、攻撃者が検出方法へのホワイトボックス アクセスを持たずに、LLM 出力の隠された AI テキスト署名を推測できることを示します。
最後に、可能な限り最良の検出器の AUROC と、人間と AI のテキスト分布間の合計変動距離との間の理論的な関係を提供します。これは、高度な言語モデルの信頼できる検出問題の基本的な難しさを研究するために使用できます。
私たちのコードは https://github.com/vinusankars/Reliability-of-AI-text-detectors で公開されています。
要約(オリジナル)
The unregulated use of LLMs can potentially lead to malicious consequences such as plagiarism, generating fake news, spamming, etc. Therefore, reliable detection of AI-generated text can be critical to ensure the responsible use of LLMs. Recent works attempt to tackle this problem either using certain model signatures present in the generated text outputs or by applying watermarking techniques that imprint specific patterns onto them. In this paper, we show that these detectors are not reliable in practical scenarios. In particular, we develop a recursive paraphrasing attack to apply on AI text, which can break a whole range of detectors, including the ones using the watermarking schemes as well as neural network-based detectors, zero-shot classifiers, and retrieval-based detectors. Our experiments include passages around 300 tokens in length, showing the sensitivity of the detectors even in the case of relatively long passages. We also observe that our recursive paraphrasing only degrades text quality slightly, measured via human studies, and metrics such as perplexity scores and accuracy on text benchmarks. Additionally, we show that even LLMs protected by watermarking schemes can be vulnerable against spoofing attacks aimed to mislead detectors to classify human-written text as AI-generated, potentially causing reputational damages to the developers. In particular, we show that an adversary can infer hidden AI text signatures of the LLM outputs without having white-box access to the detection method. Finally, we provide a theoretical connection between the AUROC of the best possible detector and the Total Variation distance between human and AI text distributions that can be used to study the fundamental hardness of the reliable detection problem for advanced language models. Our code is publicly available at https://github.com/vinusankars/Reliability-of-AI-text-detectors.
arxiv情報
著者 | Vinu Sankar Sadasivan,Aounon Kumar,Sriram Balasubramanian,Wenxiao Wang,Soheil Feizi |
発行日 | 2024-02-19 16:34:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google