A Practical Examination of AI-Generated Text Detectors for Large Language Models

要約

大規模な言語モデルの急増により、特に AI が生成したテキストが人間の作成者であると誤って認識される場合、その誤用に対する懸念が高まっています。
機械生成されたコンテンツ検出器は、さまざまな条件下で、あらゆる言語モデルからそのようなテキストを効果的に識別すると主張しています。
このペーパーでは、いくつかの一般的な検出器 (RADAR、Wild、T5Sentinel、Fast-DetectGPT、GPTID、LogRank、Binoculars) を、これらの検出器がこれまで遭遇したことのない範囲のドメイン、データセット、モデルで評価することにより、これらの主張を批判的に評価しています。
私たちは敵対的攻撃をシミュレートするためにさまざまなプロンプト戦略を採用しており、適度な努力でも検出を大幅に回避できることを示しています。
特定の偽陽性率 (TPR@FPR) メトリクスにおける真陽性率の重要性を強調し、これらの検出器は特定の設定ではパフォーマンスが低く、TPR@.01 が 0\% と低いことを示します。
私たちの調査結果は、トレーニング済み検出器とゼロショット検出器の両方が、妥当な真陽性率を達成しながら高い感度を維持するのに苦労していることを示唆しています。

要約(オリジナル)

The proliferation of large language models has raised growing concerns about their misuse, particularly in cases where AI-generated text is falsely attributed to human authors. Machine-generated content detectors claim to effectively identify such text under various conditions and from any language model. This paper critically evaluates these claims by assessing several popular detectors (RADAR, Wild, T5Sentinel, Fast-DetectGPT, GPTID, LogRank, Binoculars) on a range of domains, datasets, and models that these detectors have not previously encountered. We employ various prompting strategies to simulate adversarial attacks, demonstrating that even moderate efforts can significantly evade detection. We emphasize the importance of the true positive rate at a specific false positive rate (TPR@FPR) metric and demonstrate that these detectors perform poorly in certain settings, with TPR@.01 as low as 0\%. Our findings suggest that both trained and zero-shot detectors struggle to maintain high sensitivity while achieving a reasonable true positive rate.

arxiv情報

著者 Brian Tufts,Xuandong Zhao,Lei Li
発行日 2024-12-06 15:56:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク