Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining

要約

広大で不均一なデータセットの大規模な言語モデル(LLMS)を事前に除去することは、多様なダウンストリームタスク全体で最先端のパフォーマンスを達成するために重要です。
ただし、現在のトレーニングパラダイムは、すべてのサンプルを等しく扱い、トレーニングプロセス全体の個々のサンプルの重要性または関連性を見落としています。
主にグループレベルのデータの重要性に焦点を当てた既存の再雑誌戦略は、微調整されたインスタンスレベルの情報を活用できず、トレーニングが進むにつれて個々のサンプルの重要性に動的に適応しません。
このホワイトペーパーでは、LLM事前トレーニングの効率と有効性の両方を改善することを目的とした、動的なインスタンスレベルのデータの再譲歩のための新しいアルゴリズムを紹介します。
当社の方法は、オンラインファッションでの損失値に基づいて各トレーニングサンプルの重量を調整し、モデルが現在のトレーニング段階でより有益なまたは重要なサンプルに動的に集中できるようにします。
特に、当社のフレームワークにより、冗長または情報のないデータを剥奪することを具体的に考案することができます。これは、最適に機能する傾向があります。
さらに、勾配ベースの最適化の収束に対する損失ベースのリワイティングの影響を分析するための新しい理論的枠組みを開発し、これらの戦略が収束境界にどのように影響するかの最初の正式な特性評価を提供します。
7Bおよび1.4BパラメーターLLMSから小規模な言語モデルや線形回帰問題まで、さまざまなタスクにわたるアプローチを経験的に検証し、損失ベースの再重み付けアプローチが収束をより高速に改善し、パフォーマンスを大幅に改善できることを示しています。

要約(オリジナル)

Pretraining large language models (LLMs) on vast and heterogeneous datasets is crucial for achieving state-of-the-art performance across diverse downstream tasks. However, current training paradigms treat all samples equally, overlooking the importance or relevance of individual samples throughout the training process. Existing reweighting strategies, which primarily focus on group-level data importance, fail to leverage fine-grained instance-level information and do not adapt dynamically to individual sample importance as training progresses. In this paper, we introduce novel algorithms for dynamic, instance-level data reweighting aimed at improving both the efficiency and effectiveness of LLM pretraining. Our methods adjust the weight of each training sample based on its loss value in an online fashion, allowing the model to dynamically focus on more informative or important samples at the current training stage. In particular, our framework allows us to systematically devise reweighting strategies deprioritizing redundant or uninformative data, which we find tend to work best. Furthermore, we develop a new theoretical framework for analyzing the impact of loss-based reweighting on the convergence of gradient-based optimization, providing the first formal characterization of how these strategies affect convergence bounds. We empirically validate our approach across a spectrum of tasks, from pretraining 7B and 1.4B parameter LLMs to smaller-scale language models and linear regression problems, demonstrating that our loss-based reweighting approach can lead to faster convergence and significantly improved performance.

arxiv情報

著者 Daouda Sow,Herbert Woisetschläger,Saikiran Bulusu,Shiqiang Wang,Hans-Arno Jacobsen,Yingbin Liang
発行日 2025-02-10 17:57:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク