RedPajama: an Open Dataset for Training Large Language Models

要約

大規模な言語モデルは、人工知能、科学、社会全体においてますます基礎となるテクノロジーになりつつありますが、データセットの構成とフィルタリングの最適な戦略は依然としてほとんど見つかっていません。
最高のパフォーマンスを誇るモデルの多くは、データセットのキュレーションとモデル開発プロセスに透明性を欠いており、完全にオープンな言語モデルの開発に障害をもたらしています。
このペーパーでは、オープンソース言語モデルを進化させるために対処する必要がある、データ関連の中核となる 3 つの課題を特定します。
これらには、(1) データ キュレーション プロセスを含むモデル開発の透明性、(2) 大量の高品質データへのアクセス、(3) データセットのキュレーションと分析のためのアーティファクトとメタデータの可用性が含まれます。
これらの課題に対処するために、LLaMA トレーニング データセットのオープンな複製である RedPajama-V1 をリリースします。
さらに、フィルタリングされていない生のテキスト データと高品質の信号およびメタデータで構成される大規模な Web 専用データセットである RedPajama-V2 をリリースします。
RedPajama データセットは、複数のドメインにまたがる 100 兆を超えるトークンで構成されており、その高品質な信号によりデータのフィルタリングが容易になり、多数の新しいデータセットの開発を促進することを目的としています。
現在まで、これらのデータセットは、Snowflake Arctic、Salesforce の XGen、AI2 の OLMo など、本番環境で使用される強力な言語モデルのトレーニングにすでに使用されています。
RedPajama の品質についての洞察を提供するために、最大 1.6B パラメーターを持つデコーダーのみの言語モデルを使用した一連の分析とアブレーション研究を紹介します。
私たちの調査結果は、Web データの品質シグナルを効果的に活用して、データセットの高品質なサブセットをキュレーションする方法を示しており、透明でパフォーマンスの高い言語モデルの開発を大規模に進める RedPajama の可能性を強調しています。

要約(オリジナル)

Large language models are increasingly becoming a cornerstone technology in artificial intelligence, the sciences, and society as a whole, yet the optimal strategies for dataset composition and filtering remain largely elusive. Many of the top-performing models lack transparency in their dataset curation and model development processes, posing an obstacle to the development of fully open language models. In this paper, we identify three core data-related challenges that must be addressed to advance open-source language models. These include (1) transparency in model development, including the data curation process, (2) access to large quantities of high-quality data, and (3) availability of artifacts and metadata for dataset curation and analysis. To address these challenges, we release RedPajama-V1, an open reproduction of the LLaMA training dataset. In addition, we release RedPajama-V2, a massive web-only dataset consisting of raw, unfiltered text data together with quality signals and metadata. Together, the RedPajama datasets comprise over 100 trillion tokens spanning multiple domains and with their quality signals facilitate the filtering of data, aiming to inspire the development of numerous new datasets. To date, these datasets have already been used in the training of strong language models used in production, such as Snowflake Arctic, Salesforce’s XGen and AI2’s OLMo. To provide insight into the quality of RedPajama, we present a series of analyses and ablation studies with decoder-only language models with up to 1.6B parameters. Our findings demonstrate how quality signals for web data can be effectively leveraged to curate high-quality subsets of the dataset, underscoring the potential of RedPajama to advance the development of transparent and high-performing language models at scale.

arxiv情報

著者 Maurice Weber,Daniel Fu,Quentin Anthony,Yonatan Oren,Shane Adams,Anton Alexandrov,Xiaozhong Lyu,Huu Nguyen,Xiaozhe Yao,Virginia Adams,Ben Athiwaratkun,Rahul Chalamala,Kezhen Chen,Max Ryabinin,Tri Dao,Percy Liang,Christopher Ré,Irina Rish,Ce Zhang
発行日 2024-11-19 09:35:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク