要約
言語モデル (LM) によって生成されたテキストは、トレーニング コーパスと比較してどの程度新規ですか?
この研究では、現代のLMが訓練データから$n$-gramを生成する範囲を調査し、(i) LMが訓練$n$-gramを完了するために割り当てる確率と(ii) $n$-斬新性の両方を評価します。
LM によって生成された $n$-gram のうち、訓練データに現れなかったものの割合 (任意に大きい $n$ の場合)。
一定時間内でコーパス全体にわたる任意長の $n$-gram 検索を可能にするために、ゲノムデータのインデックス作成にヒントを得た新しい検索ツールである Rusty-DAWG を開発しました。
私たちは、LM が生成したテキストの新規性を人間が書いたテキストと比較し、Pythia モデルに焦点を当てて、生成の新規性に影響を与える要因を調査します。
$n > 4$ の場合、LM で生成されたテキストは人間が書いたテキストよりも斬新ではありませんが、$n$ が小さい場合はより斬新であることがわかります。
LM が大きくなり、復号化戦略がより制約されると、両方とも新規性が低下します。
最後に、LM が訓練データ内でより頻繁に存在する場合、より低い損失で $n$-gram を完了することを示します。
全体として、私たちの結果は、LM で生成されたテキストの新規性に影響を与える要因を明らかにし、さらなる事前トレーニング データ調査を促進するために Rusty-DAWG をリリースします。
要約(オリジナル)
How novel are texts generated by language models (LMs) relative to their training corpora? In this work, we investigate the extent to which modern LMs generate $n$-grams from their training data, evaluating both (i) the probability LMs assign to complete training $n$-grams and (ii) $n$-novelty, the proportion of $n$-grams generated by an LM that did not appear in the training data (for arbitrarily large $n$). To enable arbitrary-length $n$-gram search over a corpus in constant time, we develop Rusty-DAWG, a novel search tool inspired by indexing of genomic data. We compare the novelty of LM-generated text to human-written text and explore factors that affect generation novelty, focusing on the Pythia models. We find that, for $n > 4$, LM-generated text is less novel than human-written text, though it is more novel for smaller $n$. Larger LMs and more constrained decoding strategies both decrease novelty. Finally, we show that LMs complete $n$-grams with lower loss if they are more frequent in the training data. Overall, our results reveal factors influencing the novelty of LM-generated text, and we release Rusty-DAWG to facilitate further pretraining data research.
arxiv情報
著者 | William Merrill,Noah A. Smith,Yanai Elazar |
発行日 | 2024-06-25 15:02:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google