DetectRL: Benchmarking LLM-Generated Text Detection in Real-World Scenarios

要約

大規模な言語モデル(LLMS)によって生成されたテキストの検出は、最近の非常に興味深いものです。
DetectGPTなどのゼロショットメソッドでは、検出機能が印象的なレベルに達しています。
ただし、実際のアプリケーションにおける既存の検出器の信頼性は、採用されていないままです。
この研究では、新しいベンチマークであるDetectRLを提示し、このタスクでまだ最先端の(SOTA)検出技術がまだ不十分であることを強調しています。
LLMが特に誤用する傾向があるドメインから人間が作成したデータセットを収集しました。
一般的なLLMSを使用して、実際のアプリケーションとより適切に整合するデータを生成しました。
以前の研究とは異なり、ヒューリスティックルールを採用して、敵対的なLLM生成テキストを作成し、さまざまなプロンプトの使用、単語代替などの人間の改訂、スペルミスなどのノイズを書くことをシミュレートしました。
DetectRLの開発は、現在のSOTA検出器の強度と制限を明らかにしています。
さらに重要なことは、さまざまなタイプの検出器に対するライティングスタイル、モデルタイプ、攻撃方法、テキストの長さ、現実世界の人間のライティング要因の潜在的な影響を分析したことです。
DetectRLは、現実世界のシナリオで検出器を評価するための効果的なベンチマークとして機能し、高度な攻撃方法で進化するため、より効率的な検出器の開発を促進するためのよりストレスの多い評価を提供できると考えています。
データとコードは、https://github.com/nlp2ct/detectrlで公開されています。

要約(オリジナル)

Detecting text generated by large language models (LLMs) is of great recent interest. With zero-shot methods like DetectGPT, detection capabilities have reached impressive levels. However, the reliability of existing detectors in real-world applications remains underexplored. In this study, we present a new benchmark, DetectRL, highlighting that even state-of-the-art (SOTA) detection techniques still underperformed in this task. We collected human-written datasets from domains where LLMs are particularly prone to misuse. Using popular LLMs, we generated data that better aligns with real-world applications. Unlike previous studies, we employed heuristic rules to create adversarial LLM-generated text, simulating various prompts usages, human revisions like word substitutions, and writing noises like spelling mistakes. Our development of DetectRL reveals the strengths and limitations of current SOTA detectors. More importantly, we analyzed the potential impact of writing styles, model types, attack methods, the text lengths, and real-world human writing factors on different types of detectors. We believe DetectRL could serve as an effective benchmark for assessing detectors in real-world scenarios, evolving with advanced attack methods, thus providing more stressful evaluation to drive the development of more efficient detectors. Data and code are publicly available at: https://github.com/NLP2CT/DetectRL.

arxiv情報

著者 Junchao Wu,Runzhe Zhan,Derek F. Wong,Shu Yang,Xinyi Yang,Yulin Yuan,Lidia S. Chao
発行日 2025-03-12 10:08:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク