要約
タイトル:データ効率の良い言語モデルのためのMiniPileチャレンジ
要約:
– 事前学習テキストコーパスの多様性が増すに従い、言語モデルは様々な下流のタスクにおいて一般化能力を備えるようになりました。
– しかし、このような多様なデータセットはしばしば予算的にも大きすぎます。そのため、Transformerアーキテクチャ、トレーニング手法、最適化手法などに関する研究は、より小さく均質なデータセット上で行われることが多くなっています。
– このため、MiniPileチャレンジを提供しました。MiniPileは、最大1Mドキュメントを含む多様なテキストコーパスで言語モデルを事前学習するというものです。
– MiniPileは、重複のない825GBのThe Pileコーパスの6GBのサブセットです。MiniPileを整備するために、以下の3段階のデータフィルタリングプロセスを実施しました:(1)すべてのPileドキュメントの埋め込みを推定する、(2)$k$-meansを使用して埋め込み空間をクラスタリングする、(3)低品質なクラスタをフィルタリングする。
– MiniPileが言語モデルの事前学習に適していることを検証するために、BERTおよびT5モデルでMiniPileを事前学習しました。その結果、GLUEおよびSNIベンチマークにおいて、元の事前学習済みチェックポイントと比較してデータ量が2.6倍(/ 745倍)の場合に比べ、性能低下はわずか1.9%/ 2.5%でした。
– MiniPileはこちらから入手可能です:https://huggingface.co/datasets/JeanKaddour/minipile。
要約(オリジナル)
The ever-growing diversity of pre-training text corpora has equipped language models with generalization capabilities across various downstream tasks. However, such diverse datasets are often too large for academic budgets; hence, most research on Transformer architectures, training procedures, optimizers, etc. gets conducted on smaller, homogeneous datasets. To this end, we present The MiniPile Challenge, where one pre-trains a language model on a diverse text corpus containing at most 1M documents. MiniPile is a 6GB subset of the deduplicated 825GB The Pile corpus. To curate MiniPile, we perform a simple, three-step data filtering process: we (1) infer embeddings for all documents of the Pile, (2) cluster the embedding space using $k$-means, and (3) filter out low-quality clusters. To verify MiniPile’s suitability for language model pre-training, we use it to pre-train a BERT and T5 model, yielding a performance drop of only $1.9\%$/$2.5\%$ on the GLUE and SNI benchmarks compared to the original pre-trained checkpoints trained on $2.6$x/$745$x the amount of data. MiniPile is available at https://huggingface.co/datasets/JeanKaddour/minipile.
arxiv情報
著者 | Jean Kaddour |
発行日 | 2023-04-17 17:03:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI