Evading AI-Generated Content Detectors using Homoglyphs

要約

大規模言語モデル (LLM) の出現により、人間に似た特徴をますます示すテキストの生成が可能になりました。
このようなコンテンツの検出は非常に重要であるため、信頼性の高い AI 生成のテキスト検出器を開発する目的で多くの研究が行われてきました。
これらの検出器はテストデータで有望な結果を示していますが、最近の研究では、別の技術を使用することで検出器を回避できることが明らかになりました。
この論文では、既存の検出器を回避する手段として同形文字ベースの攻撃 ($a \rightarrow {\alpha}$) を紹介します。
5 つの異なるデータセットに対して、ArguGPT、Binoculars、DetectGPT、Fast-DetectGPT、Ghostbuster、OpenAI の検出器、透かし技術を含む 7 つの検出器に対するこれらの攻撃の有効性を評価するために、包括的な評価が実施されました。
私たちの調査結果は、ホモグリフベースの攻撃が最先端の検出器を効果的に回避し、すべてのテキストを AI 生成または人間が書いたものとして分類できることを示しています (平均マシューズ相関係数が 0.64 から -0.01 に減少)。
次に、ホモグリフがさまざまな検出器ファミリーにどのような影響を与えるかを分析することで、これらの攻撃の有効性を検証します。
最後に、これらの調査結果の意味と、そのような攻撃に対する潜在的な防御策について説明します。

要約(オリジナル)

The advent of large language models (LLMs) has enabled the generation of text that increasingly exhibits human-like characteristics. As the detection of such content is of significant importance, numerous studies have been conducted with the aim of developing reliable AI-generated text detectors. These detectors have demonstrated promising results on test data, but recent research has revealed that they can be circumvented by employing different techniques. In this paper, we present homoglyph-based attacks ($a \rightarrow {\alpha}$) as a means of circumventing existing detectors. A comprehensive evaluation was conducted to assess the effectiveness of these attacks on seven detectors, including ArguGPT, Binoculars, DetectGPT, Fast-DetectGPT, Ghostbuster, OpenAI’s detector, and watermarking techniques, on five different datasets. Our findings demonstrate that homoglyph-based attacks can effectively circumvent state-of-the-art detectors, leading them to classify all texts as either AI-generated or human-written (decreasing the average Matthews Correlation Coefficient from 0.64 to -0.01). We then examine the effectiveness of these attacks by analyzing how homoglyphs impact different families of detectors. Finally, we discuss the implications of these findings and potential defenses against such attacks.

arxiv情報

著者 Aldan Creo,Shushanta Pudasaini
発行日 2024-08-28 11:10:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク