Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

要約

大規模な言語モデルは、構造化されておらず、ノイズが多く、表現が不十分であることが多い Web の大量のスクレイピングでトレーニングされます。
現在のスケーリングの法則は、このようなデータから学習するには大量のコンピューティングとデータの両方が必要であり、トレーニングされるモデルのサイズに応じて増大することを示しています。
これは、事前トレーニングに伴う膨大なコンピューティング コストと時間がかかること、および Web 上の高品質データが差し迫って不足していることの両方の理由から、実現不可能です。
この研究では、Web 上のドキュメントを「Wikipedia のように」または
「質問と回答の形式」で、実際の言い換えと合成の言い換えに関して LLM を共同で事前トレーニングします。
まず、当然ノイズが多い C4 データセットで WRAP を使用すると、事前トレーニングが $\sim3x$ だけ高速化されることを示します。
同じトレーニング前のコンピューティング バジェットで、Pile のさまざまなサブセット全体で混乱度が平均 10% 以上改善され、13 のタスク全体でゼロショット質問の回答精度が 2% 以上向上しました。
次に、モデルのパフォーマンスに対する言い換えスタイルの影響を調査し、トレーニング データの構成が OOD 設定における LLM のパフォーマンスにどのような影響を与える可能性があるかについての洞察を提供します。
私たちの利益は、再表現された合成データが、(i) 下流の評価スタイルを密接に反映するスタイルの多様性を組み込んでおり、(ii) ウェブスクレイピングされたデータよりも高い「品質」を備えているため、単なる実際のデータよりも高い有用性を持っているという事実に起因しています。

要約(オリジナル)

Large language models are trained on massive scrapes of the web, which are often unstructured, noisy, and poorly phrased. Current scaling laws show that learning from such data requires an abundance of both compute and data, which grows with the size of the model being trained. This is infeasible both because of the large compute costs and duration associated with pre-training, and the impending scarcity of high-quality data on the web. In this work, we propose Web Rephrase Augmented Pre-training ($\textbf{WRAP}$) that uses an off-the-shelf instruction-tuned model prompted to paraphrase documents on the web in specific styles such as ‘like Wikipedia’ or in ‘question-answer format’ to jointly pre-train LLMs on real and synthetic rephrases. First, we show that using WRAP on the C4 dataset, which is naturally noisy, speeds up pre-training by $\sim3x$. At the same pre-training compute budget, it improves perplexity by more than 10% on average across different subsets of the Pile, and improves zero-shot question answer accuracy across 13 tasks by more than 2%. Second, we investigate the impact of the re-phrasing style on the performance of the model, offering insights into how the composition of the training data can impact the performance of LLMs in OOD settings. Our gains are attributed to the fact that re-phrased synthetic data has higher utility than just real data because it (i) incorporates style diversity that closely reflects downstream evaluation style, and (ii) has higher ‘quality’ than web-scraped data.

arxiv情報

著者 Pratyush Maini,Skyler Seto,He Bai,David Grangier,Yizhe Zhang,Navdeep Jaitly
発行日 2024-01-29 18:19:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク