要約
合成データの品質が高くなり、インターネット上で急増するにつれて、機械学習モデルは人間が生成したデータと機械が生成したデータを組み合わせてトレーニングされることが増えています。
表現学習に合成データを使用する成功事例があるにもかかわらず、生成モデルのトレーニングに合成データを使用すると、特定の条件が満たされない限り、トレーニングが不安定になったり、崩壊したりする可能性がある「自己消費ループ」が作成されます。
私たちの論文は、自己消費型の生成モデルのトレーニングを安定化することを目的としています。
私たちの理論的結果は、実際のデータ分布の下でより可能性が高いデータポイントをマッピングする理想的な補正関数を導入することによって、自己消費ループを指数関数的により安定させることができることを示しています。
次に、専門知識 (シミュレーターでプログラムされた物理法則など) に依存する自己補正関数を提案し、理想的な補正器を自動的かつ大規模に近似することを目指します。
私たちは、難しい人間のモーション合成タスクに対する自己修正型の自己消費型ループの有効性を経験的に検証し、実際のデータに対する合成データの比率が 100% に達する場合でも、モデルの崩壊を首尾よく回避できることを観察しました。
要約(オリジナル)
As synthetic data becomes higher quality and proliferates on the internet, machine learning models are increasingly trained on a mix of human- and machine-generated data. Despite the successful stories of using synthetic data for representation learning, using synthetic data for generative model training creates ‘self-consuming loops’ which may lead to training instability or even collapse, unless certain conditions are met. Our paper aims to stabilize self-consuming generative model training. Our theoretical results demonstrate that by introducing an idealized correction function, which maps a data point to be more likely under the true data distribution, self-consuming loops can be made exponentially more stable. We then propose self-correction functions, which rely on expert knowledge (e.g. the laws of physics programmed in a simulator), and aim to approximate the idealized corrector automatically and at scale. We empirically validate the effectiveness of self-correcting self-consuming loops on the challenging human motion synthesis task, and observe that it successfully avoids model collapse, even when the ratio of synthetic data to real data is as high as 100%.
arxiv情報
著者 | Nate Gillman,Michael Freeman,Daksh Aggarwal,Chia-Hong Hsu,Calvin Luo,Yonglong Tian,Chen Sun |
発行日 | 2024-04-05 15:42:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google