要約
ChatGPT のような大規模な言語モデルの時代における「モデル崩壊」現象とは、時間の経過とともにモデルがそれ自体の前の世代から生成されたデータに基づいて再帰的にトレーニングされるにつれて、そのモデルが最終的に完全に役に立たなくなるまでパフォーマンスが低下する状況を指します。
つまり、モデルが崩壊します。
この研究では、カーネル回帰の簡略化された設定でこの現象を研究し、モデルが偽のデータに対処できる領域と、モデルのパフォーマンスが完全に崩壊する領域との間の明確なクロスオーバーを示す結果が得られました。
多項式の減衰するスペクトルおよびソース条件の下で、高速レートから低速レートへの新しいクロスオーバー現象を示す修正されたスケーリング則が得られます。
また、モデルの崩壊を軽減するための適応正則化に基づく単純な戦略も提案します。
私たちの理論的結果は実験によって検証されています。
要約(オリジナル)
In the era of large language models like ChatGPT, the phenomenon of ‘model collapse’ refers to the situation whereby as a model is trained recursively on data generated from previous generations of itself over time, its performance degrades until the model eventually becomes completely useless, i.e the model collapses. In this work, we study this phenomenon in the simplified setting of kernel regression and obtain results which show a clear crossover between where the model can cope with fake data, and a regime where the model’s performance completely collapses. Under polynomial decaying spectral and source conditions, we obtain modified scaling laws which exhibit new crossover phenomena from fast to slow rates. We also propose a simple strategy based on adaptive regularization to mitigate model collapse. Our theoretical results are validated with experiments.
arxiv情報
著者 | Elvis Dohmatob,Yunzhen Feng,Julia Kempe |
発行日 | 2024-02-12 15:26:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google