CCI3.0-HQ: a large-scale Chinese dataset of high quality designed for pre-training large language models

要約

中国企業インターネット 3.0 (CCI3.0)(https://huggingface.co) の高品質 500GB サブセットである CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ) を紹介します。
/datasets/BAAI/CCI3-Data)、データ品質を大幅に向上させる新しい 2 段階ハイブリッドフィルタリングパイプラインを使用して開発されました。
その有効性を評価するために、さまざまなデータセットにわたる 100B トークンで 0.5B パラメーターモデルをゼロからトレーニングし、CCI3.0、SkyPile、WanjuanV1 と比較してゼロショット設定の 10 ベンチマークで優れたパフォーマンスを達成しました。
高品質のフィルタリングプロセスにより、Qwen2-72B 命令モデルの機能がコンパクトな 0.5B モデルに効率的に抽出され、中国の Web データ分類に最適な F1 スコアが達成されます。
私たちは、このオープンアクセスデータセットにより、高品質の言語モデルへの幅広いアクセスが促進されると信じています。

要約(オリジナル)

We present CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ), a high-quality 500GB subset of the Chinese Corpora Internet 3.0 (CCI3.0)(https://huggingface.co/datasets/BAAI/CCI3-Data), developed using a novel two-stage hybrid filtering pipeline that significantly enhances data quality. To evaluate its effectiveness, we trained a 0.5B parameter model from scratch on 100B tokens across various datasets, achieving superior performance on 10 benchmarks in a zero-shot setting compared to CCI3.0, SkyPile, and WanjuanV1. The high-quality filtering process effectively distills the capabilities of the Qwen2-72B-instruct model into a compact 0.5B model, attaining optimal F1 scores for Chinese web data classification. We believe this open-access dataset will facilitate broader access to high-quality language models.

arxiv情報

著者	Liangdong Wang,Bo-Wen Zhang,Chengwei Wu,Hanyu Zhao,Xiaofeng Shi,Shuhao Gu,Jijie Li,Quanyue Ma,TengFei Pan,Guang Liu
発行日	2024-10-25 08:52:59+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

CCI3.0-HQ: a large-scale Chinese dataset of high quality designed for pre-training large language models

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー