The Nordic Pile: A 1.2TB Nordic Dataset for Language Modeling

要約

大規模言語モデル (LLM) の事前トレーニングには大量のテキスト データが必要であり、LLM のパフォーマンスは通常、データセットの規模と品質に相関します。
これは、テキスト コーパスの利用が制限されている北欧言語などの小規模な言語の LLM を構築するのが困難な場合があることを意味します。
北欧言語での LLMS の開発を促進するために、主要な北ゲルマン言語 (デンマーク語、アイスランド語、ノルウェー語、スウェーデン語) のすべてで、1.2 TB のテキストで構成される高品質のデータセットをキュレートします。
いくつかの高品質の英語データ。
このホワイト ペーパーでは、データセットの収集、クリーニング、およびフィルター処理に関する考慮事項とプロセスについて詳しく説明します。

要約(オリジナル)

Pre-training Large Language Models (LLMs) require massive amounts of text data, and the performance of the LLMs typically correlates with the scale and quality of the datasets. This means that it may be challenging to build LLMs for smaller languages such as Nordic ones, where the availability of text corpora is limited. In order to facilitate the development of the LLMS in the Nordic languages, we curate a high-quality dataset consisting of 1.2TB of text, in all of the major North Germanic languages (Danish, Icelandic, Norwegian, and Swedish), as well as some high-quality English data. This paper details our considerations and processes for collecting, cleaning, and filtering the dataset.

arxiv情報

著者 Joey Öhman,Severine Verlinden,Ariel Ekgren,Amaru Cuba Gyllensten,Tim Isbister,Evangelia Gogoulou,Fredrik Carlsson,Magnus Sahlgren
発行日 2023-03-30 06:42:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク