要約
最近の研究では、モデル崩壊として知られる再帰的生成モデルトレーニングにおける興味深い現象が特定されました。ここでは、以前のモデルによって生成されたデータで訓練されたモデルは、深刻なパフォーマンス分解を示します。
この問題に対処し、より効果的なトレーニング戦略を開発することは、生成モデルの研究における中心的な課題となっています。
このホワイトペーパーでは、この現象を理論的には、新たに収集した実際のデータと前のトレーニングステップから合成データの組み合わせで生成モデルが繰り返しトレーニングされている新しいフレームワーク内で調査します。
実際のデータと合成データを統合するための最適なトレーニング戦略を開発するために、ガウス分布の推定や線形回帰など、さまざまなシナリオで加重トレーニングスキームのパフォーマンスを評価します。
最終モデルのパフォーマンスに対する合成データの混合の割合と重み付けスキームの影響を理論的に特徴付けます。
私たちの重要な発見は、異なる設定で、合成データの異なる割合での最適な重み付けスキームが漸近的に統一された式に従うことであり、合成データの活用と生成モデルのパフォーマンスとの基本的なトレードオフを明らかにすることです。
特に、場合によっては、実際のデータに割り当てられた最適な重みは、ゴールデン比の相互に対応しています。
最後に、広範なシミュレートされたデータセットと実際の表形式データセットで理論的結果を検証します。
要約(オリジナル)
Recent studies identified an intriguing phenomenon in recursive generative model training known as model collapse, where models trained on data generated by previous models exhibit severe performance degradation. Addressing this issue and developing more effective training strategies have become central challenges in generative model research. In this paper, we investigate this phenomenon theoretically within a novel framework, where generative models are iteratively trained on a combination of newly collected real data and synthetic data from the previous training step. To develop an optimal training strategy for integrating real and synthetic data, we evaluate the performance of a weighted training scheme in various scenarios, including Gaussian distribution estimation and linear regression. We theoretically characterize the impact of the mixing proportion and weighting scheme of synthetic data on the final model’s performance. Our key finding is that, across different settings, the optimal weighting scheme under different proportions of synthetic data asymptotically follows a unified expression, revealing a fundamental trade-off between leveraging synthetic data and generative model performance. Notably, in some cases, the optimal weight assigned to real data corresponds to the reciprocal of the golden ratio. Finally, we validate our theoretical results on extensive simulated datasets and a real tabular dataset.
arxiv情報
著者 | Hengzhi He,Shirong Xu,Guang Cheng |
発行日 | 2025-03-06 16:03:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google