ChineseWebText 2.0: Large-Scale High-quality Chinese Web Text with Multi-dimensional and fine-grained information

要約

大規模言語モデル (LLM) の開発中、事前トレーニング データは LLM の機能を形成する上で重要な役割を果たします。
近年、LLM の研究を加速するために、 ChineseWebText1.0、C4、Pile、WanJuan、MAPCC などの大規模で高品質な事前トレーニング データセットがいくつかリリースされています。
しかし、LLM が進化し続けるにつれて、焦点はドメイン固有の機能と安全性への懸念にますます移ってきており、以前の粗いテキストではトレーニング要件を満たすには不十分になってきています。
さらに、品質、ドメイン、毒性などのきめ細かい情報は、さまざまなシナリオに対応する強力で信頼性の高い LLM を構築する上でますます重要になっています。
これらの課題に対処するために、この論文では、多次元かつきめ細かい情報を備えた大規模で高品質の中国データセットを構築するための MDFG ツールと呼ばれる新しいツールチェーンを提案します。
まず、手動で作成したルールを採用して、生のコンテンツから明示的なノイズの多いテキストを破棄します。
第 2 に、品質評価モデル、ドメイン分類子、および毒性評価モデルは、それぞれ残りのクリーン化されたデータを評価するように適切に設計されています。
最後に、これら 3 種類の詳細な情報をテキストごとに統合します。
このアプローチにより、最大かつ高品質で粒度の細かい中国語テキスト ChineseWebText2.0 をリリースします。これは 3.8 TB で構成され、各テキストは品質スコア、ドメイン ラベル、毒性ラベル、毒性スコアに関連付けられており、
LLM 研究者は、さまざまな種類のきめ細かい情報に基づいてデータを選択します。
データ、コード、ツールチェーンは、この Web サイト https://github.com/CASIA-LM/ ChineseWebText-2.0 で入手できます。

要約(オリジナル)

During the development of large language models (LLMs), pre-training data play a critical role in shaping LLMs’ capabilities. In recent years several large-scale and high-quality pre-training datasets have been released to accelerate the research of LLMs, including ChineseWebText1.0, C4, Pile, WanJuan, MAPCC and others. However, as LLMs continue to evolve, focus has increasingly shifted to domain-specific capabilities and safety concerns, making those previous coarse-grained texts insufficient for meeting training requirements. Furthermore, fine-grained information, such as quality, domain and toxicity, is becoming increasingly important in building powerful and reliable LLMs for various scenarios. To address these challenges, in this paper we propose a new tool-chain called MDFG-tool for constructing large-scale and high-quality Chinese datasets with multi-dimensional and fine-grained information. First, we employ manually crafted rules to discard explicit noisy texts from raw contents. Second, the quality evaluation model, domain classifier, and toxicity evaluation model are well-designed to assess the remaining cleaned data respectively. Finally, we integrate these three types of fine-grained information for each text. With this approach, we release the largest, high-quality and fine-grained Chinese text ChineseWebText2.0, which consists of 3.8TB and each text is associated with a quality score, domain labels, a toxicity label and a toxicity score, facilitating the LLM researchers to select data based on various types of fine-grained information. The data, codes and the tool-chain are available on this website https://github.com/CASIA-LM/ChineseWebText-2.0

arxiv情報

著者 Wanyue Zhang,Ziyong Li,Wen Yang,Chunlin Leng,Yinan Bai,Qianlong Du,Chengqing Zong,Jiajun Zhang
発行日 2024-11-29 12:48:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク