CCI3.0-HQ: a large-scale Chinese dataset of high quality designed for pre-training large language models

要約

中国企業インターネット 3.0 (CCI3.0)(https://huggingface.co) の高品質 500GB サブセットである CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ) を紹介します。
/datasets/BAAI/CCI3-Data)、データ品質を大幅に向上させる新しい 2 段階ハイブリッド フィルタリング パイプラインを使用して開発されました。
その有効性を評価するために、さまざまなデータセットにわたる 100B トークンで 0.5B パラメーター モデルをゼロからトレーニングし、CCI3.0、SkyPile、WanjuanV1 と比較してゼロショット設定の 10 ベンチマークで優れたパフォーマンスを達成しました。
高品質のフィルタリング プロセスにより、Qwen2-72B 命令モデルの機能がコンパクトな 0.5B モデルに効率的に抽出され、中国の Web データ分類に最適な F1 スコアが達成されます。
私たちは、このオープンアクセス データセットにより、高品質の言語モデルへの幅広いアクセスが促進されると信じています。

要約(オリジナル)

We present CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ), a high-quality 500GB subset of the Chinese Corpora Internet 3.0 (CCI3.0)(https://huggingface.co/datasets/BAAI/CCI3-Data), developed using a novel two-stage hybrid filtering pipeline that significantly enhances data quality. To evaluate its effectiveness, we trained a 0.5B parameter model from scratch on 100B tokens across various datasets, achieving superior performance on 10 benchmarks in a zero-shot setting compared to CCI3.0, SkyPile, and WanjuanV1. The high-quality filtering process effectively distills the capabilities of the Qwen2-72B-instruct model into a compact 0.5B model, attaining optimal F1 scores for Chinese web data classification. We believe this open-access dataset will facilitate broader access to high-quality language models.

arxiv情報

著者 Liangdong Wang,Bo-Wen Zhang,Chengwei Wu,Hanyu Zhao,Xiaofeng Shi,Shuhao Gu,Jijie Li,Quanyue Ma,TengFei Pan,Guang Liu
発行日 2024-10-25 08:52:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク