要約
言語モデル(LM)が生成するテキストは、学習コーパスに対してどの程度新規性があるのだろうか。本研究では、(i)LMが学習データから$n$-gramを生成する確率、(ii)LMが生成する$n$-gramのうち、学習データに現れなかった$n$-gramの割合である$n$-novelty(任意に大きな$n$の場合)の両方を評価することで、最新のLMが学習データからどの程度$n$-gramを生成するかを調べる。コーパスのサイズに対して一定の時間で任意の長さの$n$-gram検索を可能にするために、ゲノムデータの索引付けに着想を得た新しい検索ツールRusty-DAWGを開発する。LMで生成されたテキストの新規性を人間が書いたテキストと比較し、生成の新規性に影響を与える要因をPythiaモデルに着目して探索する。その結果、$n > 4$の場合、LMで生成されたテキストは人間が書いたテキストよりも新規性が低いが、$n$が小さい場合は新規性が高いことがわかった。より大きなLMと、より制約の多いデコーディング戦略は、いずれも新規性を低下させる。最後に、$n$-gramの出現頻度が高い場合、LMはより低い損失で$n$-gramを完成させることを示す。全体として、我々の結果は、LMが生成するテキストの新規性に影響を与える要因を明らかにした。
要約(オリジナル)
How novel are texts generated by language models (LMs) relative to their training corpora? In this work, we investigate the extent to which modern LMs generate $n$-grams from their training data, evaluating both (i) the probability LMs assign to complete training $n$-grams and (ii) $n$-novelty, the proportion of $n$-grams generated by an LM that did not appear in the training data (for arbitrarily large $n$). To enable arbitrary-length $n$-gram search over a corpus in constant time w.r.t. corpus size, we develop Rusty-DAWG, a novel search tool inspired by indexing of genomic data. We compare the novelty of LM-generated text to human-written text and explore factors that affect generation novelty, focusing on the Pythia models. We find that, for $n > 4$, LM-generated text is less novel than human-written text, though it is more novel for smaller $n$. Larger LMs and more constrained decoding strategies both decrease novelty. Finally, we show that LMs complete $n$-grams with lower loss if they are more frequent in the training data. Overall, our results reveal factors influencing the novelty of LM-generated text, and we release Rusty-DAWG to facilitate further pretraining data research.
arxiv情報
著者 | William Merrill,Noah A. Smith,Yanai Elazar |
発行日 | 2024-10-04 16:42:20+00:00 |
arxivサイト | arxiv_id(pdf) |