要約
大規模な言語モデル(LLM)は通常、データの混合物でトレーニングされています。ほとんどのデータはWebスクレイプからのものですが、小さな部分は密度の高いドメイン固有の知識を持つ高品質のソースからキュレーションされています。
この論文では、そのようなデータ混合物でLLMをトレーニングするとき、知識密度の高いデータ(ARXIV:2404.05405)のみでのトレーニングとは異なり、知識密度の高いデータセットからの知識習得は、常にスムーズなスケーリング法則に従うことはできませんが、混合比とモデルサイズに関して位相遷移を示すことができます。
Webスクラップデータと混合された合成伝記データセットでの制御された実験により、次のことを実証します。(1)モデルサイズをクリティカル値に増やすと、モデルは突然、ほとんどの伝記を記憶から記憶することから移行します。
(2)重要な混合比以下では、モデルは広範なトレーニングでさえほとんど何も記憶していませんが、このしきい値を超えて、より多くの伝記を迅速に記憶しています。
これらの位相遷移は、容量割り当て現象に起因すると考えています。容量の境界を持つモデルは、全体的なテスト損失を最小限に抑えるためにナップサック問題ソルバーのように動作する必要があり、データセット全体の最適な割り当ては、モデルサイズまたは混合比が変化するにつれて不連続に変化する可能性があります。
この直観を情報理論的フレームワークで正式に形式化し、これらの位相遷移が予測可能であり、モデルサイズとのパワーロー関係に続く重要な混合比があることを明らかにします。
私たちの調査結果は、大規模なモデルの優れたミキシングレシピが小さなモデルに最適ではなく、その逆も同様である具体的なケースを強調しています。
要約(オリジナル)
Large Language Models (LLMs) are typically trained on data mixtures: most data come from web scrapes, while a small portion is curated from high-quality sources with dense domain-specific knowledge. In this paper, we show that when training LLMs on such data mixtures, knowledge acquisition from knowledge-dense datasets, unlike training exclusively on knowledge-dense data (arXiv:2404.05405), does not always follow a smooth scaling law but can exhibit phase transitions with respect to the mixing ratio and model size. Through controlled experiments on a synthetic biography dataset mixed with web-scraped data, we demonstrate that: (1) as we increase the model size to a critical value, the model suddenly transitions from memorizing very few to most of the biographies; (2) below a critical mixing ratio, the model memorizes almost nothing even with extensive training, but beyond this threshold, it rapidly memorizes more biographies. We attribute these phase transitions to a capacity allocation phenomenon: a model with bounded capacity must act like a knapsack problem solver to minimize the overall test loss, and the optimal allocation across datasets can change discontinuously as the model size or mixing ratio varies. We formalize this intuition in an information-theoretic framework and reveal that these phase transitions are predictable, with the critical mixing ratio following a power-law relationship with the model size. Our findings highlight a concrete case where a good mixing recipe for large models may not be optimal for small models, and vice versa.
arxiv情報
著者 | Xinran Gu,Kaifeng Lyu,Jiazheng Li,Jingzhao Zhang |
発行日 | 2025-05-23 16:46:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google