Zero-Shot Statistical Tests for LLM-Generated Text Detection using Finite Sample Concentration Inequalities

要約

コンテンツの出所を検証することは、多くの組織、たとえば教育機関、ソーシャルメディアプラットフォーム、企業などの機能にとって重要です。この問題は、大規模な言語モデル(LLMS)によって生成されたテキストが人間生成コンテンツとほとんど見分けがつかないため、ますます困難になっています。
さらに、多くの機関は社内LLMSを利用しており、外部の非認可LLMが機関内でコンテンツを生成しないようにしたいと考えています。
この論文では、次の質問に答えます。テキストを考えると、特定のLLMによって生成されたかどうかを特定できますか?
履歴に完全に依存して、LLM生成テキストを連続的な確率プロセスとしてモデル化します。
次に、ゼロショット統計テストを設計します。(i)LLMS $ a $(非認可)と$ b $(社内)の2つの異なる既知のセットによって生成されたテキストを区別し、(ii)テキストが既知のLLMによって生成されたか、未知のモデルによって生成されたかどうか、例えば人間または他の言語生成プロセスを識別します。
テストのタイプIおよびタイプIIエラーは、テキストの長さとともに指数関数的に減少することを証明します。
そのために、$ b $がテキストを生成する場合、文字列の長さの指数関数的に少ない確率を除いて、$ a $の下の文字列のログプレキシティが$ b $と$ a $の平均交差点に収束することを示します。
次に、ホワイトボックスアクセスを使用してLLMSを使用して実験を提示して、理論的な結果をサポートし、ブラックボックスの設定と敵対的な攻撃に対する結果の堅牢性を経験的に調べます。
ブラックボックス設定では、この方法では、固定FPRの5 \%で平均TPRが82.5 \%を達成します。
敵対的な摂動では、最小TPRは同じFPRしきい値で48.6 \%です。
両方の結果は、すべての非営利的なベースラインよりも優れています。
コード、データ、およびプロジェクトのオンラインデモについては、https://github.com/tararadvand74/llm-text-セクションを参照してください。

要約(オリジナル)

Verifying the provenance of content is crucial to the function of many organizations, e.g., educational institutions, social media platforms, firms, etc. This problem is becoming increasingly challenging as text generated by Large Language Models (LLMs) becomes almost indistinguishable from human-generated content. In addition, many institutions utilize in-house LLMs and want to ensure that external, non-sanctioned LLMs do not produce content within the institution. In this paper, we answer the following question: Given a piece of text, can we identify whether it was produced by a particular LLM or not? We model LLM-generated text as a sequential stochastic process with complete dependence on history. We then design zero-shot statistical tests to (i) distinguish between text generated by two different known sets of LLMs $A$ (non-sanctioned) and $B$ (in-house), and (ii) identify whether text was generated by a known LLM or generated by any unknown model, e.g., a human or some other language generation process. We prove that the type I and type II errors of our test decrease exponentially with the length of the text. For that, we show that if $B$ generates the text, then except with an exponentially small probability in string length, the log-perplexity of the string under $A$ converges to the average cross-entropy of $B$ and $A$. We then present experiments using LLMs with white-box access to support our theoretical results and empirically examine the robustness of our results to black-box settings and adversarial attacks. In the black-box setting, our method achieves an average TPR of 82.5\% at a fixed FPR of 5\%. Under adversarial perturbations, our minimum TPR is 48.6\% at the same FPR threshold. Both results outperform all non-commercial baselines. See https://github.com/TaraRadvand74/llm-text-detection for code, data, and an online demo of the project.

arxiv情報

著者 Tara Radvand,Mojtaba Abdolmaleki,Mohamed Mostagir,Ambuj Tewari
発行日 2025-05-16 15:45:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IT, cs.LG, math.IT, stat.ML パーマリンク