要約
トレーニングデータの混合物は、大規模な言語モデルの一般化パフォーマンスに大きく影響します。
既存のドメインの再重み付け方法は、多くの場合、費用のかかる重量計算に依存しており、新しいデータが導入されたときに再訓練が必要です。
この目的のために、レバレッジスコアを使用して学習した埋め込みスペース内のドメインの重要性を定量化する柔軟で効率的なデータミキシングフレームワークであるChameleonを導入します。
最初にドメイン埋め込み上にドメインアフィニティマトリックスを構築します。
誘導されたレバレッジスコアは、埋め込み空間で共通の表現を共有する上向きのドメインが混合物を決定します。
この定式化により、新しいドメイン埋め込みを計算することにより、新しいデータに直接転送できます。
実験では、3つの重要なシナリオにわたる改善を示します。(i)既存の方法の一部の一部の場合、計算された重みが前登録ドメインのパフォーマンスを改善します。
(ii)カメレオンは、プロキシ再試行なしでデータの変更に適応でき、新しいデータに転送されたときに少数のショットの推論の正確さを高めることができます。
(iii)私たちの方法により、微調整における効率的なドメインの再雑誌が可能になり、均一な混合物上のすべての微調整ドメインのテスト困惑を一貫して改善します。
私たちのコードは、https://github.com/lions-epfl/chameleonで入手できます。
要約(オリジナル)
Training data mixtures greatly impact the generalization performance of large language models. Existing domain reweighting methods often rely on costly weight computations and require retraining when new data is introduced. To this end, we introduce a flexible and efficient data mixing framework, Chameleon, that employs leverage scores to quantify domain importance within a learned embedding space. We first construct a domain affinity matrix over domain embeddings. The induced leverage scores determine a mixture that upweights domains sharing common representations in embedding space. This formulation allows direct transfer to new data by computing the new domain embeddings. In experiments, we demonstrate improvements over three key scenarios: (i) our computed weights improve performance on pretraining domains with a fraction of the compute of existing methods; (ii) Chameleon can adapt to data changes without proxy retraining, boosting few-shot reasoning accuracies when transferred to new data; (iii) our method enables efficient domain reweighting in finetuning, consistently improving test perplexity on all finetuning domains over uniform mixture. Our code is available at https://github.com/LIONS-EPFL/Chameleon.
arxiv情報
著者 | Wanyun Xie,Francesco Tonin,Volkan Cevher |
発行日 | 2025-05-30 17:43:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google