Language Models Optimized to Fool Detectors Still Have a Distinct Style (And How to Change It)

要約

マシンテキスト検出器の開発においてかなりの進歩にもかかわらず、問題は本質的に困難であることが示唆されており、したがって、利害関係者は、機械で生成されたテキストをそのように確実に検出できないという仮定の下で進めるべきです。
Nicksらによる最近のそのような主張を調べます。
(2024)言語モデルを最適化して、特異的に最適化されていない検出器を含むマシンテキスト検出器のパフォーマンスを低下させることができることについて。
特徴スペース$ \ Unicode {x2013} $スタイルの特徴スペース$ \ unicode {x2013} $は、このような最適化に堅牢であることを示し、検出を防ぐために最適化された言語モデルからサンプルを確実に検出するために使用できることを示します。
さらに、モデルがスタイルの検出器に対して明示的に最適化されている場合でも、検出性能は驚くほど影響を受けないことを示しています。
次に、スタイルの検出器が本質的に堅牢であるかどうかを理解しようとします。
この質問を研究するために、従来の特徴を使用した検出を避けながら、人間の執筆と機械の執筆の間のギャップを閉じることを同時に目的とする新しい言い換えアプローチを探ります。
単一のサンプルのみが検出に利用できる場合、この攻撃は、ライティングスタイルを使用するものを含む、考慮されるすべての検出器で普遍的に効果的であることを示します。
ただし、検出に利用できるサンプルの数が増加すると、人間と機械の分布が区別可能になります。
この観察により、オーラを導入することが促進されます。これは、より多くのサンプルが利用可能になるにつれて検出器のパフォーマンスがどのように改善するかを分析することにより、人間と機械で生成された分布の重複を推定するメトリックです。
全体として、私たちの調査結果は、マシンテキスト検出への依存を避けるために、以前の推奨事項を強調しています。

要約(オリジナル)

Despite considerable progress in the development of machine-text detectors, it has been suggested that the problem is inherently hard, and therefore, that stakeholders should proceed under the assumption that machine-generated text cannot be reliably detected as such. We examine a recent such claim by Nicks et al. (2024) regarding the ease with which language models can be optimized to degrade the performance of machine-text detectors, including detectors not specifically optimized against. We identify a feature space$\unicode{x2013}$the stylistic feature space$\unicode{x2013}$that is robust to such optimization, and show that it may be used to reliably detect samples from language models optimized to prevent detection. Furthermore, we show that even when models are explicitly optimized against stylistic detectors, detection performance remains surprisingly unaffected. We then seek to understand if stylistic detectors are inherently more robust. To study this question, we explore a new paraphrasing approach that simultaneously aims to close the gap between human writing and machine writing in stylistic feature space while avoiding detection using traditional features. We show that when only a single sample is available for detection, this attack is universally effective across all detectors considered, including those that use writing style. However, as the number of samples available for detection grows, the human and machine distributions become distinguishable. This observation encourages us to introduce AURA, a metric that estimates the overlap between human and machine-generated distributions by analyzing how detector performance improves as more samples become available. Overall, our findings underscore previous recommendations to avoid reliance on machine-text detection.

arxiv情報

著者 Rafael Rivera Soto,Barry Chen,Nicholas Andrews
発行日 2025-05-20 16:55:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク