Why language models collapse when trained on recursively generated text

要約

言語モデル (LM) は、インターネット上でテキストを生成するために広く使用されています。
生成されたテキストは、多くの場合、次世代 LM のトレーニング コーパスに収集されます。
以前の研究では、再帰的に生成されたテキストでトレーニングされると LM が崩壊することが実験的に判明しました。
この論文は 2 つの側面から既存の知識に貢献します。
LM 崩壊の理論的証明を提示します。
私たちの証明により、LM 崩壊の原因が明らかになり、すべての自己回帰 LM は確実に崩壊することが証明されました。
我々は、再帰的に生成されたテキストで訓練されると、ランダムに初期化された LM と同等のパフォーマンスになるまで、LM のパフォーマンスが徐々に低下するという新しい発見を提示します。
訓練された LM は、大量の反復的なテキストを生成し、幅広い自然言語タスクにわたってパフォーマンスが低下します。
上記の証拠と新しい発見は、LM 崩壊についての理解を深め、この脅威を軽減するための新しいトレーニング技術を刺激する可能性のある貴重な洞察を提供します。

要約(オリジナル)

Language models (LMs) have been widely used to generate text on the Internet. The generated text is often collected into the training corpus of the next generations of LMs. Previous work has experimentally found that LMs collapse when trained on recursively generated text. This paper contributes to existing knowledge from two aspects. We present a theoretical proof of LM collapse. Our proof reveals the cause of LM collapse and proves that all auto-regressive LMs will definitely collapse. We present a new finding: the performance of LMs gradually declines when trained on recursively generated text until they perform no better than a randomly initialized LM. The trained LMs produce large amounts of repetitive text and perform poorly across a wide range of natural language tasks. The above proof and new findings deepen our understanding of LM collapse and offer valuable insights that may inspire new training techniques to mitigate this threat.

arxiv情報

著者 Lecheng Wang,Xianjie Shi,Ge Li,Jia Li,Yihong Dong,Xuanming Zhang,Wenpin Jiao,Hong Mei
発行日 2024-12-19 14:11:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク