要約
データミキシング戦略により、言語モデルのトレーニングに伴うコストが正常に削減されました。
有望である間、そのような方法は2つの欠陥に苦しんでいます。
第一に、彼らは、重要なセマンティックニュアンスをキャプチャできず、テーブルにパフォーマンスを残すことができない場合がある、所定のデータドメイン(データソース、タスクタイプなど)に依存しています。
第二に、これらのメソッドは、計算的に法外な方法でドメインの数で拡大します。
これらの課題は、R&Bを介してこれらの課題に対処します。これは、セマンティックの類似性(再編成)に基づいてトレーニングデータを再分割して、より細かいドメインを作成し、トレーニング全体で得られたドメイン勾配によって誘導されるグラムマトリックスを活用することにより、データ構成(バランス)を効率的に最適化します。
以前の作品とは異なり、損失や勾配などの評価情報を取得するための追加の計算が必要になります。
標準的な規則性条件下でこの手法を分析し、非栄養ミキシングアプローチと比較してR&Bの有効性を正当化する理論的洞察を提供します。
経験的には、自然言語から推論やマルチモーダルタスクに至るまでの5つの多様なデータセットに対するR&Bの有効性を示します。
わずか0.01%の追加コンピューティングオーバーヘッドで、R&Bは最先端のデータミキシング戦略のパフォーマンスを一致させるか、それを超えます。
要約(オリジナル)
Data mixing strategies have successfully reduced the costs involved in training language models. While promising, such methods suffer from two flaws. First, they rely on predetermined data domains (e.g., data sources, task types), which may fail to capture critical semantic nuances, leaving performance on the table. Second, these methods scale with the number of domains in a computationally prohibitive way. We address these challenges via R&B, a framework that re-partitions training data based on semantic similarity (Regroup) to create finer-grained domains, and efficiently optimizes the data composition (Balance) by leveraging a Gram matrix induced by domain gradients obtained throughout training. Unlike prior works, it removes the need for additional compute to obtain evaluation information such as losses or gradients. We analyze this technique under standard regularity conditions and provide theoretical insights that justify R&B’s effectiveness compared to non-adaptive mixing approaches. Empirically, we demonstrate the effectiveness of R&B on five diverse datasets ranging from natural language to reasoning and multimodal tasks. With as little as 0.01% additional compute overhead, R&B matches or exceeds the performance of state-of-the-art data mixing strategies.
arxiv情報
著者 | Albert Ge,Tzu-Heng Huang,John Cooper,Avi Trost,Ziyi Chu,Satya Sai Srinath Namburi GNVV,Ziyang Cai,Kendall Park,Nicholas Roberts,Frederic Sala |
発行日 | 2025-05-01 07:08:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google