Evade ChatGPT Detectors via A Single Space

要約

ChatGPT は革命的な社会的価値をもたらしますが、AI が生成したテキストの悪用についての懸念も引き起こします。
したがって、重要な問題は、テキストが ChatGPT によって生成されたのか人間によって生成されたのかをどのように検出するかということです。
既存の検出器は、人間が生成したテキストと AI が生成したテキストの間に分布上のギャップがあるという前提に基づいて構築されています。
これらのギャップは通常、統計情報または分類子を使用して特定されます。
私たちの研究は、検出器における分布ギャップの仮定に挑戦します。
検出器は、人間が生成したテキストと AI が生成したテキストの間の意味論的および文体上のギャップを効果的に識別できないことがわかりました。
代わりに、余分なスペースなどの「微妙な違い」が検出に重要になります。
この発見に基づいて、検出を回避する SpaceInfi 戦略を提案します。
実験では、複数のベンチマークと検出器にわたってこの戦略の有効性が実証されています。
また、なぜ SpaceInfi が複雑さベースの検出の回避に成功するのかについての理論的な説明も提供します。
そして、トークンの突然変異と呼ばれる現象が言語モデルベースの検出器の回避を引き起こすことを経験的に示します。
私たちの調査結果は、より適用可能な ChatGPT 検出器を理解して構築するための新たな洞察と課題を提供します。

要約(オリジナル)

ChatGPT brings revolutionary social value but also raises concerns about the misuse of AI-generated text. Consequently, an important question is how to detect whether texts are generated by ChatGPT or by human. Existing detectors are built upon the assumption that there are distributional gaps between human-generated and AI-generated text. These gaps are typically identified using statistical information or classifiers. Our research challenges the distributional gap assumption in detectors. We find that detectors do not effectively discriminate the semantic and stylistic gaps between human-generated and AI-generated text. Instead, the ‘subtle differences’, such as an extra space, become crucial for detection. Based on this discovery, we propose the SpaceInfi strategy to evade detection. Experiments demonstrate the effectiveness of this strategy across multiple benchmarks and detectors. We also provide a theoretical explanation for why SpaceInfi is successful in evading perplexity-based detection. And we empirically show that a phenomenon called token mutation causes the evasion for language model-based detectors. Our findings offer new insights and challenges for understanding and constructing more applicable ChatGPT detectors.

arxiv情報

著者 Shuyang Cai,Wanyun Cui
発行日 2023-10-13 17:01:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク