要約
言語モデル(LM)の事前トレーニングのスケーリングを計算すると、人間が書いたテキストの成長を上回り、データがLMスケーリングのボトルネックになるという懸念につながります。
このデータが制約したレジームの事前脱布のスケーリングを継続するために、テキスト生成プロセスの根底にある潜在的な考えを明示的にモデル化し、推測することで、前のデータ効率を大幅に改善できることを提案します。
直感的に、私たちのアプローチは、Webテキストを、冗長な人間の思考プロセスの圧縮された最終結果と見なし、潜在的な思考には、データ効率の高い学習に不可欠な重要な文脈的知識と推論ステップが含まれていると見なしています。
数学のためのデータが制約された継続的な事前販売を通じて、アプローチの有効性を経験的に実証します。
まず、合成データが潜在的思考を推測するためにアプローチしてデータの効率を大幅に改善し、同じ量の生データ(5.7 \%$ \ rightArrow $ 25.4 \%)でトレーニングを上回ることを示します。
さらに、強力な教師なしで潜在的な思考の推論を示します。LMは、emアルゴリズムを使用して訓練されたLMの能力と思考能力のある前削除データの品質を繰り返し改善することにより、独自のパフォーマンスをブートストラップします。
1B LMが少なくとも3つの反復にわたってパフォーマンスをブートストラップし、生データでトレーニングされたベースラインを大幅に上回ることができることを示しています。
推論のスケーリングと繰り返しによる利益は、データが制約した事前削除をスケーリングする新しい機会を示唆しています。
要約(オリジナル)
Compute scaling for language model (LM) pretraining has outpaced the growth of human-written texts, leading to concerns that data will become the bottleneck to LM scaling. To continue scaling pretraining in this data-constrained regime, we propose that explicitly modeling and inferring the latent thoughts that underlie the text generation process can significantly improve pretraining data efficiency. Intuitively, our approach views web text as the compressed final outcome of a verbose human thought process and that the latent thoughts contain important contextual knowledge and reasoning steps that are critical to data-efficient learning. We empirically demonstrate the effectiveness of our approach through data-constrained continued pretraining for math. We first show that synthetic data approaches to inferring latent thoughts significantly improve data efficiency, outperforming training on the same amount of raw data (5.7\% $\rightarrow$ 25.4\% on MATH). Furthermore, we demonstrate latent thought inference without a strong teacher, where an LM bootstraps its own performance by using an EM algorithm to iteratively improve the capability of the trained LM and the quality of thought-augmented pretraining data. We show that a 1B LM can bootstrap its performance across at least three iterations and significantly outperform baselines trained on raw data, with increasing gains from additional inference compute when performing the E-step. The gains from inference scaling and EM iterations suggest new opportunities for scaling data-constrained pretraining.
arxiv情報
著者 | Yangjun Ruan,Neil Band,Chris J. Maddison,Tatsunori Hashimoto |
発行日 | 2025-03-24 16:41:23+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google