Skill-it! A Data-Driven Skills Framework for Understanding and Training Language Models

要約

トレーニング データの品質は、事前トレーニングされた大規模言語モデル (LM) のパフォーマンスに影響を与えます。
トークンの固定予算を考慮して、タスク全体で下流モデルの優れたパフォーマンスにつながるデータを最適に選択する方法を研究します。
私たちは単純な仮説に基づいて新しいフレームワークを開発しました。人間が相互に依存するスキルを意図的な順序で習得するのと同じように、言語モデルもトレーニング データから一連のスキルを学習する際に自然な順序に従います。
このような順序が存在する場合、LM の理解を向上させ、データ効率の高いトレーニングに利用できます。
この直感を使用して、私たちのフレームワークは、スキルと、関連するデータの観点から順序付けられたスキルのセットの概念を形式化します。
まず、合成データと実際のデータの両方を使用して、これらの順序付けられたスキル セットが存在すること、およびその存在により、前提条件となるスキルをトレーニングするときに、より少ないデータでより高度なスキルを学習できることを示します。
次に、私たちが提案するフレームワークを使用して、継続的な事前トレーニングと微調整の両方のスキルを組み合わせたオンライン データ サンプリング アルゴリズム Skill-It を導入します。目的は、前者と個人で複数のスキルを効率的に学習することです。
後者のスキル。
継続的な事前トレーニング設定の LEGO 合成では、Skill-It はランダム サンプリングより 36.5 ポイント高い精度を獲得しました。
微調整設定の Natural 指示データセットでは、Skill-It は、ターゲット スキル自体に関連付けられたデータでのトレーニングと比較して、ターゲット スキルの検証損失を 13.6% 削減します。
最新の RedPajama データセットにスキル フレームワークを適用して、3B パラメーターの LM を継続的に事前トレーニングし、3B トークンを使用してデータ ソース全体で均一にサンプリングするベースライン アプローチよりも、1B トークンを使用した LM 評価ハーネスでより高い精度を達成します。

要約(オリジナル)

The quality of training data impacts the performance of pre-trained large language models (LMs). Given a fixed budget of tokens, we study how to best select data that leads to good downstream model performance across tasks. We develop a new framework based on a simple hypothesis: just as humans acquire interdependent skills in a deliberate order, language models also follow a natural order when learning a set of skills from their training data. If such an order exists, it can be utilized for improved understanding of LMs and for data-efficient training. Using this intuition, our framework formalizes the notion of a skill and of an ordered set of skills in terms of the associated data. First, using both synthetic and real data, we demonstrate that these ordered skill sets exist, and that their existence enables more advanced skills to be learned with less data when we train on their prerequisite skills. Second, using our proposed framework, we introduce an online data sampling algorithm, Skill-It, over mixtures of skills for both continual pre-training and fine-tuning regimes, where the objective is to efficiently learn multiple skills in the former and an individual skill in the latter. On the LEGO synthetic in the continual pre-training setting, Skill-It obtains 36.5 points higher accuracy than random sampling. On the Natural Instructions dataset in the fine-tuning setting, Skill-It reduces the validation loss on the target skill by 13.6% versus training on data associated with the target skill itself. We apply our skills framework on the recent RedPajama dataset to continually pre-train a 3B-parameter LM, achieving higher accuracy on the LM Evaluation Harness with 1B tokens than the baseline approach of sampling uniformly over data sources with 3B tokens.

arxiv情報

著者 Mayee F. Chen,Nicholas Roberts,Kush Bhatia,Jue Wang,Ce Zhang,Frederic Sala,Christopher Ré
発行日 2023-07-26 18:01:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク