要約
大規模言語モデル (LLM) で生成されたテキスト検出器の有効性は、かなりの量のトレーニング データが利用できるかどうかに大きく依存します。
ホワイトボックス ゼロショット検出器はそのようなデータを必要としませんが、LLM で生成されたテキストのソース モデルのアクセス可能性によって制限されます。
この論文では、人間が書いたテキストには通常、LLM で生成されたテキストよりも文法上の誤りが含まれているという観察に基づいて、シンプルだが効果的なブラックボックス ゼロショット検出アプローチを提案します。
このアプローチでは、人間が書いたテキストと LLM が生成したテキストを区別するために、指定されたテキストの文法エラー修正スコア (GECScore) を計算する必要があります。
広範な実験結果は、私たちの手法が現在の最先端 (SOTA) ゼロショット手法および教師あり手法を上回っており、平均 AUROC 98.7% を達成し、言い換え攻撃や敵対的摂動攻撃に対して強力な堅牢性を示していることを示しています。
要約(オリジナル)
The efficacy of an large language model (LLM) generated text detector depends substantially on the availability of sizable training data. White-box zero-shot detectors, which require no such data, are nonetheless limited by the accessibility of the source model of the LLM-generated text. In this paper, we propose an simple but effective black-box zero-shot detection approach, predicated on the observation that human-written texts typically contain more grammatical errors than LLM-generated texts. This approach entails computing the Grammar Error Correction Score (GECScore) for the given text to distinguish between human-written and LLM-generated text. Extensive experimental results show that our method outperforms current state-of-the-art (SOTA) zero-shot and supervised methods, achieving an average AUROC of 98.7% and showing strong robustness against paraphrase and adversarial perturbation attacks.
arxiv情報
著者 | Junchao Wu,Runzhe Zhan,Derek F. Wong,Shu Yang,Xuebo Liu,Lidia S. Chao,Min Zhang |
発行日 | 2024-05-07 12:57:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google