ChineseWebText: Large-scale High-quality Chinese Web Text Extracted with Effective Evaluation Model

要約

大規模言語モデル (LLM) の開発中、事前トレーニング データの規模と品質は、LLM の機能を形成する上で重要な役割を果たします。
LLM の研究を加速するために、C4 [1]、Pile [2]、RefinedWeb [3]、WanJuan [4] など、いくつかの大規模なデータセットが公開されています。
ただし、リリースされたコーパスのほとんどは主に英語に焦点を当てており、Web データからクリーン テキストを抽出するための完全なツールチェーンがまだ不足しています。
さらに、コーパスのきめ細かい情報。
各テキストの品質が欠けています。
これらの課題に対処するために、本稿ではノイズの多い Web データから中国語のクリーン テキストを抽出するための新しい完全なツールチェーン EvalWeb を提案します。
まず、以前の作業と同様に、手動で作成したルールを使用して、クロールされた生の Web コンテンツから明示的なノイズの多いテキストを破棄します。
次に、適切に設計された評価モデルを活用して、残りの比較的きれいなデータを評価し、各テキストに特定の品質スコアを割り当てます。
最後に、適切なしきい値を利用して、中国語の高品質な事前トレーニング データを選択することが簡単にできます。
私たちが提案したアプローチを使用して、最大かつ最新の大規模で高品質な中国語 Web テキスト ChineseWebText をリリースします。これは 1.42 TB で構成され、各テキストは品質スコアに関連付けられており、LLM 研究者が望ましい品質に従ってデータを選択するのが容易になります。
しきい値。
また、品質が 90% を超える、よりクリーンな 600 GB の中国語データのサブセットもリリースします。

要約(オリジナル)

During the development of large language models (LLMs), the scale and quality of the pre-training data play a crucial role in shaping LLMs’ capabilities. To accelerate the research of LLMs, several large-scale datasets, such as C4 [1], Pile [2], RefinedWeb [3] and WanJuan [4], have been released to the public. However, most of the released corpus focus mainly on English, and there is still lack of complete tool-chain for extracting clean texts from web data. Furthermore, fine-grained information of the corpus, e.g. the quality of each text, is missing. To address these challenges, we propose in this paper a new complete tool-chain EvalWeb to extract Chinese clean texts from noisy web data. First, similar to previous work, manually crafted rules are employed to discard explicit noisy texts from the raw crawled web contents. Second, a well-designed evaluation model is leveraged to assess the remaining relatively clean data, and each text is assigned a specific quality score. Finally, we can easily utilize an appropriate threshold to select the high-quality pre-training data for Chinese. Using our proposed approach, we release the largest and latest large-scale high-quality Chinese web text ChineseWebText, which consists of 1.42 TB and each text is associated with a quality score, facilitating the LLM researchers to choose the data according to the desired quality thresholds. We also release a much cleaner subset of 600 GB Chinese data with the quality exceeding 90%.

arxiv情報

著者 Jianghao Chen,Pu Jian,Tengxiao Xi,Dongyi Yi,Qianlong Du,Chenglin Ding,Guibo Zhu,Chengqing Zong,Jinqiao Wang,Jiajun Zhang
発行日 2023-11-10 06:28:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク