要約
LLM と人間は両方とも広範囲にわたる複雑な動作を示す可能性があるため、最新の大規模言語モデルによって生成されたテキストを検出することは困難であると考えられています。
ただし、密接に関連する 2 つの言語モデルの対比に基づくスコアは、人間が生成したテキストと機械が生成したテキストを非常に正確に区別できることがわかりました。
このメカニズムに基づいて、事前に訓練された LLM のペアを使用した単純な計算のみを必要とする新しい LLM 検出器を提案します。
Binoculars と呼ばれるこの方法は、トレーニング データなしで最先端の精度を実現します。
モデル固有の変更を加えることなく、さまざまな最新の LLM からマシン テキストを検出できます。
私たちは、さまざまなテキストソースとさまざまな状況で双眼鏡を総合的に評価します。
Binoculars は、ChatGPT データでトレーニングされていないにもかかわらず、広範囲のドキュメント タイプにわたって、ChatGPT (およびその他の LLM) から生成されたサンプルの 90% 以上を 0.01% の偽陽性率で検出します。
要約(オリジナル)
Detecting text generated by modern large language models is thought to be hard, as both LLMs and humans can exhibit a wide range of complex behaviors. However, we find that a score based on contrasting two closely related language models is highly accurate at separating human-generated and machine-generated text. Based on this mechanism, we propose a novel LLM detector that only requires simple calculations using a pair of pre-trained LLMs. The method, called Binoculars, achieves state-of-the-art accuracy without any training data. It is capable of spotting machine text from a range of modern LLMs without any model-specific modifications. We comprehensively evaluate Binoculars on a number of text sources and in varied situations. Over a wide range of document types, Binoculars detects over 90% of generated samples from ChatGPT (and other LLMs) at a false positive rate of 0.01%, despite not being trained on any ChatGPT data.
arxiv情報
| 著者 | Abhimanyu Hans,Avi Schwarzschild,Valeriia Cherepanova,Hamid Kazemi,Aniruddha Saha,Micah Goldblum,Jonas Geiping,Tom Goldstein | 
| 発行日 | 2024-07-01 15:17:10+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
