SoftDedup: an Efficient Data Reweighting Method for Speeding Up Language Model Pre-training

要約

大規模言語モデル (LLM) の有効性は、大規模な事前トレーニング データセット内の重複データによって妨げられることがよくあります。
現在のアプローチは主に重複の検出と削除に重点を置いていますが、これでは貴重な情報が失われる危険があり、さまざまな程度の重複が無視されます。
これに対処するために、我々は、共通性の高いデータのサンプリング重みを選択的に削減しながら、データセットの整合性を維持するソフト重複排除手法を提案します。
私たちのアプローチの中心となるのは「データの共通性」の概念です。これは、N グラム モデルを使用してサンプルの出現確率を測定することによって重複の程度を定量化するために導入した指標です。
経験的分析により、この方法によりトレーニング効率が大幅に向上し、必要なトレーニング ステップを少なくとも 26% 削減しながら同等の困惑スコアを達成できることが示されています。
さらに、同等の期間トレーニングした場合、ダウンストリームでの数ショットの平均精度が 1.77% 向上します。
重要なのは、このアプローチは厳密に重複排除されたデータセットであっても一貫してパフォーマンスを向上させ、既存の方法を補完し、LLM の標準的な事前トレーニング プロセスになる可能性を示していることです。

要約(オリジナル)

The effectiveness of large language models (LLMs) is often hindered by duplicated data in their extensive pre-training datasets. Current approaches primarily focus on detecting and removing duplicates, which risks the loss of valuable information and neglects the varying degrees of duplication. To address this, we propose a soft deduplication method that maintains dataset integrity while selectively reducing the sampling weight of data with high commonness. Central to our approach is the concept of ‘data commonness’, a metric we introduce to quantify the degree of duplication by measuring the occurrence probabilities of samples using an n-gram model. Empirical analysis shows that this method significantly improves training efficiency, achieving comparable perplexity scores with at least a 26% reduction in required training steps. Additionally, it enhances average few-shot downstream accuracy by 1.77% when trained for an equivalent duration. Importantly, this approach consistently improves performance, even on rigorously deduplicated datasets, indicating its potential to complement existing methods and become a standard pre-training process for LLMs.

arxiv情報

著者 Nan He,Weichen Xiong,Hanwen Liu,Yi Liao,Lei Ding,Kai Zhang,Guohua Tang,Xiao Han,Wei Yang
発行日 2024-07-09 08:26:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク