Reliably Bounding False Positives: A Zero-Shot Machine-Generated Text Detection Framework via Multiscaled Conformal Prediction

要約

大規模な言語モデルの急速な進歩は、悪意のある俳優による潜在的な誤用に関する大きな懸念を提起しました。
その結果、これらのリスクを軽減するための効果的な検出器を開発することが重要な優先事項になりました。
ただし、ほとんどの既存の検出方法は、検出精度に過度に焦点を当てており、多くの場合、高い偽陽性率(FPR)によってもたらされる社会的リスクを無視します。
このペーパーでは、FPRの上限を効果的に制約するコンフォーマル予測(CP)を活用することにより、この問題に対処します。
CP制約FPRSを直接適用する一方で、検出性能の大幅な減少にもつながります。
このトレードオフを克服するために、このペーパーでは、Multiscaled Conformal Plediction(MCP)を介してゼロショットマシンで生成されたテキスト検出フレームワークを提案します。
このペーパーでは、幅広いドメインにまたがる高品質のデータセットであるRealdetも紹介し、現実的なキャリブレーションを確保し、MCPと組み合わせると優れた検出性能を可能にします。
経験的評価は、MCPがFPRを効果的に制約し、検出性能を大幅に向上させ、複数の検出器とデータセットにわたる敵対的攻撃に対する堅牢性を高めることを示しています。

要約(オリジナル)

The rapid advancement of large language models has raised significant concerns regarding their potential misuse by malicious actors. As a result, developing effective detectors to mitigate these risks has become a critical priority. However, most existing detection methods focus excessively on detection accuracy, often neglecting the societal risks posed by high false positive rates (FPRs). This paper addresses this issue by leveraging Conformal Prediction (CP), which effectively constrains the upper bound of FPRs. While directly applying CP constrains FPRs, it also leads to a significant reduction in detection performance. To overcome this trade-off, this paper proposes a Zero-Shot Machine-Generated Text Detection Framework via Multiscaled Conformal Prediction (MCP), which both enforces the FPR constraint and improves detection performance. This paper also introduces RealDet, a high-quality dataset that spans a wide range of domains, ensuring realistic calibration and enabling superior detection performance when combined with MCP. Empirical evaluations demonstrate that MCP effectively constrains FPRs, significantly enhances detection performance, and increases robustness against adversarial attacks across multiple detectors and datasets.

arxiv情報

著者 Xiaowei Zhu,Yubing Ren,Yanan Cao,Xixun Lin,Fang Fang,Yangxi Li
発行日 2025-05-08 09:32:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク