Beyond Model Collapse: Scaling Up with Synthesized Data Requires Reinforcement

要約

生成モデルからの合成データは、大規模言語モデルを微調整するための人による注釈付きデータの代替としてますます考慮されています。
これにより、モデルの崩壊、つまり生成されたデータに基づいて微調整されたモデルのパフォーマンスの低下に関する懸念が生じます。
人間にとっても機械にとっても、高品質のサンプルを生成するよりも良い例と悪い例を区別する方が簡単であることを考慮して、モデルの崩壊を防ぐために合成データに対するフィードバックの使用を調査します。
フィードバック拡張された合成データでトレーニングされた場合にガウス混合分類モデルが漸近的に最適なパフォーマンスを達成できる理論的条件を導き出し、有限領域のサポート シミュレーションを提供します。
トランスフォーマーを使用した行列固有値の計算と、大規模な言語モデルを使用したニュース要約の 2 つの実際的な問題に関する理論的予測を説明します。これらはどちらも、モデル生成データでトレーニングするとモデル崩壊が発生します。
私たちは、フィードバック拡張された合成データからのトレーニングで、不正確な予測を取り除くか、いくつかの推測の中から最良のものを選択することによってモデルの崩壊を防ぐことができることを示し、RLHF のような一般的なアプローチを検証します。

要約(オリジナル)

Synthesized data from generative models is increasingly considered as an alternative to human-annotated data for fine-tuning Large Language Models. This raises concerns about model collapse: a drop in performance of models fine-tuned on generated data. Considering that it is easier for both humans and machines to tell between good and bad examples than to generate high-quality samples, we investigate the use of feedback on synthesized data to prevent model collapse. We derive theoretical conditions under which a Gaussian mixture classification model can achieve asymptotically optimal performance when trained on feedback-augmented synthesized data, and provide supporting simulations for finite regimes. We illustrate our theoretical predictions on two practical problems: computing matrix eigenvalues with transformers and news summarization with large language models, which both undergo model collapse when trained on model-generated data. We show that training from feedback-augmented synthesized data, either by pruning incorrect predictions or by selecting the best of several guesses, can prevent model collapse, validating popular approaches like RLHF.

arxiv情報

著者 Yunzhen Feng,Elvis Dohmatob,Pu Yang,Francois Charton,Julia Kempe
発行日 2024-06-11 17:46:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, stat.ML パーマリンク