Data Selection for Language Models via Importance Resampling

要約

適切な事前トレーニング データセットを選択することは、一般ドメイン (GPT-3 など) とドメイン固有 (Codex など) の両方の言語モデル (LM) にとって重要です。
この問題を、いくつかのラベルなしターゲット サンプルが与えられた場合に、目的のターゲット分布に一致する大規模なラベルなし生データセットのサブセットを選択するものとして形式化します。
生のテキスト データの規模と次元が大きいため、既存の方法では、単純なヒューリスティックを使用するか、専門家を使用してデータを手動でキュレーションします。
代わりに、低次元で LM データ選択に使用される古典的な重要度リサンプリング アプローチを拡張します。
我々は、扱いやすさのために削減された特徴空間で重要度の重みを推定し、これらの重みに従って重要度リサンプリングでデータを選択する、効率的でスケーラブルなフレームワークである重要度リサンプリングによるデータ選択 (DSIR) を提案します。
適切な特徴空間を決定するために、特徴空間内の選択された事前トレーニング データとターゲットの間の近さを測定するデータ メトリックである KL リダクションが、単純な n-
グラムの特徴。
これが、n-gram 機能を使用した DSIR のインスタンス化の動機となります。
特定のドメインに向けて継続的な事前トレーニングを実行する場合、DSIR は 8 つのターゲット ディストリビューションにわたって専門家のキュレーションと同等のパフォーマンスを発揮します。
一般ドメイン モデル (ターゲットは Wikipedia + 書籍) を事前トレーニングする場合、DSIR は、GLUE ベンチマークでランダム選択およびヒューリスティック フィルタリング ベースラインよりも 2 ~ 2.5% 向上します。

要約(オリジナル)

Selecting a suitable pretraining dataset is crucial for both general-domain (e.g., GPT-3) and domain-specific (e.g., Codex) language models (LMs). We formalize this problem as selecting a subset of a large raw unlabeled dataset to match a desired target distribution given some unlabeled target samples. Due to the large scale and dimensionality of the raw text data, existing methods use simple heuristics or use experts to manually curate data. Instead, we extend the classic importance resampling approach used in low-dimensions for LM data selection. We propose Data Selection with Importance Resampling (DSIR), an efficient and scalable framework that estimates importance weights in a reduced feature space for tractability and selects data with importance resampling according to these weights. To determine an appropriate feature space, we show that KL reduction, a data metric that measures the proximity between selected pretraining data and the target in a feature space, has high correlation with average downstream accuracy (r=0.89) when computed with simple n-gram features. This motivates our instantiation of DSIR using n-gram features. When performing continued pretraining towards a specific domain, DSIR performs comparably to expert curation across 8 target distributions. When pretraining general-domain models (target is Wikipedia + books), DSIR improves over random selection and heuristic filtering baselines by 2-2.5% on the GLUE benchmark.

arxiv情報

著者 Sang Michael Xie,Shibani Santurkar,Tengyu Ma,Percy Liang
発行日 2023-10-24 17:39:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク