要約
データ効率の高い事前脱出は、スケーリング法則を高める大きな可能性を示しています。
このペーパーでは、効果的な事前トレーニングデータをグループレベルでキュレーションし、独立した貢献者としてではなく、一連のデータポイントを全体として扱う必要があると主張しています。
それを達成するために、グループレベルのデータユーティリティをキャプチャおよび最適化する新しいデータ効率の良い事前削除方法であるグループレベルのデータに影響を与えるモデリング(グループメイト)を提案します。
具体的には、グループメイトは、データセットを使用して事前トレーニングモデルを局所的に調査することにより、Oracleグループレベルの影響を収集します。
その後、関係データに影響を与えて、個々の影響の関係加重集計としてオラクルを近似するためにモデルに影響を与えます。
微調整されたモデルは、グループレベルの影響予測を最大化することにより、データサブセットを選択し、効率的な推論を可能にする影響を受けたクラスタリングを使用します。
DCLMベンチマークでの実験は、グループメイトがDCLMベースラインよりも22のダウンストリームタスクで10%の相対コアスコアの改善を達成し、個人の影響ベースの方法で5%を達成し、新しい最先端を確立することを示しています。
さらなる分析は、データポイント間の複雑な相互作用をキャプチャする際のリレーショナルデータに影響モデルの有効性を強調しています。
要約(オリジナル)
Data-efficient pretraining has shown tremendous potential to elevate scaling laws. This paper argues that effective pretraining data should be curated at the group level, treating a set of data points as a whole rather than as independent contributors. To achieve that, we propose Group-Level Data Influence Modeling (Group-MATES), a novel data-efficient pretraining method that captures and optimizes group-level data utility. Specifically, Group-MATES collects oracle group-level influences by locally probing the pretraining model with data sets. It then fine-tunes a relational data influence model to approximate oracles as relationship-weighted aggregations of individual influences. The fine-tuned model selects the data subset by maximizing its group-level influence prediction, with influence-aware clustering to enable efficient inference. Experiments on the DCLM benchmark demonstrate that Group-MATES achieves a 10% relative core score improvement on 22 downstream tasks over DCLM-Baseline and 5% over individual-influence-based methods, establishing a new state-of-the-art. Further analyses highlight the effectiveness of relational data influence models in capturing intricate interactions between data points.
arxiv情報
著者 | Zichun Yu,Fei Peng,Jie Lei,Arnold Overwijk,Wen-tau Yih,Chenyan Xiong |
発行日 | 2025-02-20 16:34:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google