Compute-Constrained Data Selection

要約

データを選択すると、LLM を微調整するために必要なトレーニング データの量を減らすことができます。
ただし、データ選択の有効性は、そのコンピューティングに直接比例します。
コンピューティングに制約のある微調整という実際的な課題に動機付けられ、データの選択とトレーニングの両方のコストが予算化される設定を検討します。
まず、コストを意識した効用関数を使用してデータ選択の問題を形式化し、初期選択コストとトレーニング利得のトレードオフとしてデータ選択問題をモデル化します。
微調整トークン、モデル サイズ、データ選択コンピューティングをスケーリングすることでコンピューティング バジェットを変化させながら、複数のタスクにわたる包括的な実験を実行します。
これらの実験は、現実世界の実験におけるこのモデルの妥当性を示しています。
興味深いことに、多くの強力なデータ選択方法がコンピューティング最適化されることはほとんどなく、理論的および経験的観点の両方から、より安価なデータ選択の代替手段が主流であることがわかりました。

要約(オリジナル)

Data selection can reduce the amount of training data needed to finetune LLMs; however, the efficacy of data selection scales directly with its compute. Motivated by the practical challenge of compute-constrained finetuning, we consider the setting in which both the cost of selecting data and training are budgeted for. We first formalize the problem of data selection with a cost-aware utility function, and model the data selection problem as trading off initial-selection cost for training gain. We run a comprehensive sweep of experiments across multiple tasks, varying compute budget by scaling finetuning tokens, model sizes, and data selection compute. These experiments show the validity of this model in real-world experiments. Interestingly we find that many powerful data selection methods are almost never compute-optimal, and that cheaper data selection alternatives dominate both from a theoretical and empirical perspective.

arxiv情報

著者 Junjie Oscar Yin,Alexander M. Rush
発行日 2024-10-21 17:11:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク