What’s In My Big Data?

要約

大規模なテキスト コーパスは言語モデルのバックボーンです。
しかし、一般的な統計、品質、社会的要因、評価データ(汚染)の包含など、これらのコーパスの内容については限られた理解しかありません。
この研究では、「What’s In My Big Data?」を提案します。
(WIMBD) は、大規模なテキスト コーパスの内容を明らかにして比較できるプラットフォームと 16 の分析セットです。
WIMBD は、カウントと検索という 2 つの基本機能を大規模に構築しており、標準の計算ノードで 35 テラバイトを超える分析を可能にします。
C4、The Pile、RedPajama など、一般的な言語モデルのトレーニングに使用される 10 の異なるコーパスに WIMBD を適用します。
私たちの分析により、重複コンテンツ、合成コンテンツ、低品質コンテンツの蔓延、個人を特定できる情報、有害な言語、ベンチマークの汚染など、これらのコーパスに関するこれまで文書化されていない驚くべき発見がいくつか明らかになりました。
たとえば、RedPajama と LAION-2B-en のドキュメントの約 50% が重複していることがわかります。
さらに、そのようなコーパスでトレーニングされたモデルのベンチマークに使用されるいくつかのデータセットは、Winograd Schema Challenge や GLUE および SuperGLUE の一部などの重要なベンチマークに関して汚染されています。
新しいテキストベースのコーパスに対する標準的な評価セットを提供し、それらに関するさらなる分析と透明性を促進するために、WIMBD のコードとアーティファクトをオープンソースにしています (github.com/allenai/wimbd)。

要約(オリジナル)

Large text corpora are the backbone of language models. However, we have a limited understanding of the content of these corpora, including general statistics, quality, social factors, and inclusion of evaluation data (contamination). In this work, we propose What’s In My Big Data? (WIMBD), a platform and a set of sixteen analyses that allow us to reveal and compare the contents of large text corpora. WIMBD builds on two basic capabilities — count and search — at scale, which allows us to analyze more than 35 terabytes on a standard compute node. We apply WIMBD to ten different corpora used to train popular language models, including C4, The Pile, and RedPajama. Our analysis uncovers several surprising and previously undocumented findings about these corpora, including the high prevalence of duplicate, synthetic, and low-quality content, personally identifiable information, toxic language, and benchmark contamination. For instance, we find that about 50% of the documents in RedPajama and LAION-2B-en are duplicates. In addition, several datasets used for benchmarking models trained on such corpora are contaminated with respect to important benchmarks, including the Winograd Schema Challenge and parts of GLUE and SuperGLUE. We open-source WIMBD’s code and artifacts to provide a standard set of evaluations for new text-based corpora and to encourage more analyses and transparency around them: github.com/allenai/wimbd.

arxiv情報

著者 Yanai Elazar,Akshita Bhagia,Ian Magnusson,Abhilasha Ravichander,Dustin Schwenk,Alane Suhr,Pete Walsh,Dirk Groeneveld,Luca Soldaini,Sameer Singh,Hanna Hajishirzi,Noah A. Smith,Jesse Dodge
発行日 2023-10-31 17:59:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク