要約
データを選択すると、LLM を微調整するために必要なトレーニング データの量を減らすことができます。
ただし、データ選択の有効性は、そのコンピューティングに直接比例します。
コンピューティングに制約のある微調整という実際的な課題に動機付けられ、データの選択とトレーニングの両方のコストが予算化される設定を検討します。
まず、コストを意識した効用関数を使用してデータ選択の問題を形式化し、初期選択コストとトレーニング利得のトレードオフとしてデータ選択問題をモデル化します。
微調整トークン、モデル サイズ、データ選択コンピューティングをスケーリングすることでコンピューティング バジェットを変化させながら、複数のタスクにわたる包括的な実験を実行します。
興味深いことに、多くの強力なデータ選択方法がコンピューティング最適化されることはほとんどなく、理論的および経験的観点の両方から、より安価なデータ選択の代替手段が主流であることがわかりました。
コンピューティング最適化トレーニングの場合、パープレキシティと勾配データの選択には、トレーニングと選択のモデル サイズ比がそれぞれ 5 倍と 10 倍必要であることがわかりました。
要約(オリジナル)
Data selection can reduce the amount of training data needed to finetune LLMs; however, the efficacy of data selection scales directly with its compute. Motivated by the practical challenge of compute-constrained finetuning, we consider the setting in which both the cost of selecting data and training are budgeted for. We first formalize the problem of data selection with a cost-aware utility function, and model the data selection problem as trading off initial-selection cost for training gain. We run a comprehensive sweep of experiments across multiple tasks, varying compute budget by scaling finetuning tokens, model sizes, and data selection compute. Interestingly we find that many powerful data selection methods are almost never compute-optimal, and that cheaper data selection alternatives dominate both from a theoretical and empirical perspective. For compute-optimal training, we find that perplexity and gradient data selection require training-to-selection model size ratios of 5x and 10x, respectively.
arxiv情報
著者 | Junjie Oscar Yin,Alexander M. Rush |
発行日 | 2024-12-02 18:59:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google