要約
人間のようなテキストを生成する能力で有名な大規模言語モデル (LLM) が広く使用されているため、誤った情報や倫理的影響についての懸念が生じています。
これらの懸念に対処するには、LLM によって生成されたテキストを検出して属性を付けるための堅牢な方法の開発が必要です。
この論文では、ソース LLM が生成したテキストと人間が書いたテキストを区別するようにトレーニングされた分類器が、さらなるトレーニングなしでターゲット LLM からのテキストも検出できるかどうかを評価することにより、「クロスモデル検出」について調査します。
この研究では、さまざまな LLM サイズとファミリーを包括的に調査し、分類器の一般化に対する会話の微調整技術、量子化、透かしの影響を評価しています。
この研究では、量子化と透かし検出に加えて、ソース モデルの識別、モデル ファミリ、モデル サイズの分類を含むモデル アトリビューションも調査しています。
私たちの結果は、いくつかの重要な発見を明らかにしました。それは、分類器の有効性とモデルのサイズの間に明確な逆関係があり、特に分類器が小さなモデルのデータでトレーニングされている場合、大きな LLM ほど検出が困難であるということです。
同様のサイズの LLM からのデータをトレーニングすると、より大きなモデルからの検出パフォーマンスが向上しますが、より小さなモデルを扱う場合はパフォーマンスの低下につながる可能性があります。
さらに、モデル帰属実験では、ソース モデルとモデル ファミリの識別において有望な結果が示され、LLM で生成されたテキスト内の検出可能な署名が強調表示され、特に透かし検出において顕著な結果が得られましたが、量子化の検出可能な署名は観察されませんでした。
全体として、私たちの研究は、LLM の検出と属性におけるモデルのサイズ、ファミリー、トレーニング データの相互作用に関する貴重な洞察に貢献します。
要約(オリジナル)
The widespread use of Large Language Models (LLMs), celebrated for their ability to generate human-like text, has raised concerns about misinformation and ethical implications. Addressing these concerns necessitates the development of robust methods to detect and attribute text generated by LLMs. This paper investigates ‘Cross-Model Detection,’ by evaluating whether a classifier trained to distinguish between source LLM-generated and human-written text can also detect text from a target LLM without further training. The study comprehensively explores various LLM sizes and families, and assesses the impact of conversational fine-tuning techniques, quantization, and watermarking on classifier generalization. The research also explores Model Attribution, encompassing source model identification, model family, and model size classification, in addition to quantization and watermarking detection. Our results reveal several key findings: a clear inverse relationship between classifier effectiveness and model size, with larger LLMs being more challenging to detect, especially when the classifier is trained on data from smaller models. Training on data from similarly sized LLMs can improve detection performance from larger models but may lead to decreased performance when dealing with smaller models. Additionally, model attribution experiments show promising results in identifying source models and model families, highlighting detectable signatures in LLM-generated text, with particularly remarkable outcomes in watermarking detection, while no detectable signatures of quantization were observed. Overall, our study contributes valuable insights into the interplay of model size, family, and training data in LLM detection and attribution.
arxiv情報
著者 | Wissam Antoun,Benoît Sagot,Djamé Seddah |
発行日 | 2024-03-27 10:50:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google