FineWeb-zhtw: Scalable Curation of Traditional Chinese Text Data from the Web

要約

事前トレーニング データセットの品質とサイズは、大規模言語モデル (LLM) のパフォーマンスに大きく影響します。
英語ユーザー向けにこのようなデータセットをキュレーションする取り組みは数多く行われてきましたが、繁体字中国語向けの同様の取り組みは相対的に不足しています。
FineWeb のこの基盤に基づいて、繁体字中国語ユーザー向けに特別に調整されたデータセットである FineWeb-zhtw を紹介します。
英語と繁体字中国語の言語的な違いに対応し、包括性と品質を確保するために、複数段階の綿密に設計されたフィルターを考案しました。
私たちは、3 つの主な目的でデータセット サンプルをクエリすることで有効性を判断しました。
私たちのコードとデータセットは公開されています。

要約(オリジナル)

The quality and size of a pretraining dataset significantly influence the performance of large language models (LLMs). While there have been numerous efforts in the curation of such a dataset for English users, there is a relative lack of similar initiatives for Traditional Chinese. Building upon this foundation of FineWeb, we introduce FineWeb-zhtw, a dataset tailored specifically for Traditional Chinese users. We came up with multiple stages of meticulously designed filters to cater to the linguistic difference between English and Traditional Chinese, to ensure comprehensiveness and quality. We determined effectiveness from querying dataset samples with three main objectives. Our code and datasets are publicly available.

arxiv情報

著者 Cheng-Wei Lin,Wan-Hsuan Hsieh,Kai-Xin Guan,Chan-Jan Hsu,Chia-Chen Kuo,Chuan-Lin Lai,Chung-Wei Chung,Ming-Jen Wang,Da-Shan Shiu
発行日 2024-11-25 13:49:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.DB パーマリンク