Slaves to the Law of Large Numbers: An Asymptotic Equipartition Property for Perplexity in Generative Language Models

要約

言語モデルによって生成された長いテキストの困惑と、オープンソースモデルからの実験的証拠をサポートする新しい漸近等式プロパティを証明します。
具体的には、言語モデルによって生成された大規模なテキストの対数的概要は、トークン分布の平均エントロピーに漸近的に収束する必要があることを示します。
これは、言語モデルによって生成されたすべての長い合成テキストが属する必要がある「典型的なセット」を定義します。
この典型的なセットは、考えられるすべての文法的に正しい出力の消え込んで小さなサブセットであることを示します。
これらの結果は、(a)合成AI生成テキストの検出、(b)言語モデルのトレーニングにテキストを使用したかどうかなど、重要な実際的な問題に対する可能なアプリケーションを示唆しています。
言語モデルの出力の統計について(定常性など)を単純化することはありません。したがって、結果は、近似のない実用的な現実世界モデルに直接適用できます。

要約(オリジナル)

We prove a new asymptotic equipartition property for the perplexity of long texts generated by a language model and present supporting experimental evidence from open-source models. Specifically we show that the logarithmic perplexity of any large text generated by a language model must asymptotically converge to the average entropy of its token distributions. This defines a ‘typical set’ that all long synthetic texts generated by a language model must belong to. We show that this typical set is a vanishingly small subset of all possible grammatically correct outputs. These results suggest possible applications to important practical problems such as (a) detecting synthetic AI-generated text, and (b) testing whether a text was used to train a language model. We make no simplifying assumptions (such as stationarity) about the statistics of language model outputs, and therefore our results are directly applicable to practical real-world models without any approximations.

arxiv情報

著者 Avinash Mudireddy,Tyler Bell,Raghu Mudumbai
発行日 2025-01-30 12:03:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.IT, math.IT パーマリンク