要約
機械学習モデルから合成データを簡単に作成できるため、以前のモデルによって生成された合成データに基づいて新しいモデルをトレーニングできる可能性があります。
この再帰的なトレーニング プロセスにより、モデルの品質に対する長期的な影響に関する懸念が生じます。
モデルは前のラウンドで生成されたデータに基づいて再帰的にトレーニングされるため、人間が生成した元のデータのニュアンスを捉える能力が低下する可能性があります。
これは、\emph{モデルの崩壊} と呼ばれることがよくあります。
この研究では、再帰的トレーニング中の最尤 (ML または準 ML) 推定のもとで、よく研究された一部の分布族に対してモデルの崩壊がどのくらいの速さで起こるかを調べます。
驚くべきことに、離散分布やガウス分布などの基本的な分布であっても、モデル崩壊の正確な割合は不明です。
この研究では、これらの基本的な設定における崩壊速度を理論的に特徴付け、実験的評価でそれを補完します。
私たちの結果は、離散分布の場合、単語を忘れるまでの時間は、元のコーパスでの単語の出現回数にほぼ線形に依存し、ガウス モデルの場合、標準偏差は $n$ 回の反復でほぼゼロに減少することを示しています。
n$ は各反復のサンプル数です。
これらの発見は両方とも、少なくとも多くのサンプルを使用したほぼ ML 推定下のこれらの単純な分布では、モデルの忘却に長い時間がかかることを意味します。
要約(オリジナル)
Given the ease of creating synthetic data from machine learning models, new models can be potentially trained on synthetic data generated by previous models. This recursive training process raises concerns about the long-term impact on model quality. As models are recursively trained on generated data from previous rounds, their ability to capture the nuances of the original human-generated data may degrade. This is often referred to as \emph{model collapse}. In this work, we ask how fast model collapse occurs for some well-studied distribution families under maximum likelihood (ML or near ML) estimation during recursive training. Surprisingly, even for fundamental distributions such as discrete and Gaussian distributions, the exact rate of model collapse is unknown. In this work, we theoretically characterize the rate of collapse in these fundamental settings and complement it with experimental evaluations. Our results show that for discrete distributions, the time to forget a word is approximately linearly dependent on the number of times it occurred in the original corpus, and for Gaussian models, the standard deviation reduces to zero roughly at $n$ iterations, where $n$ is the number of samples at each iteration. Both of these findings imply that model forgetting, at least in these simple distributions under near ML estimation with many samples, takes a long time.
arxiv情報
著者 | Ananda Theertha Suresh,Andrew Thangaraj,Aditya Nanda Kishore Khandavally |
発行日 | 2024-12-23 15:21:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google