MiChao-HuaFen 1.0: A Specialized Pre-trained Corpus Dataset for Domain-specific Large Models

要約

深層学習テクノロジーの進歩に伴い、GPT-4 などの汎用大規模モデルは、さまざまなドメインにわたって優れた機能を実証しています。
それにもかかわらず、医療、法律、金融などの分野では、高品質で分野固有の成果に対する需要が依然として存在します。
このペーパーでは、まず特殊なドメインの既存の大規模モデルを評価し、その制限について説明します。
特定の分野の特定のニーズに応えるために、ニュースおよび政府部門向けに調整された事前トレーニング済みコーパス データセット「MiChao-HuaFen 1.0」を導入します。
このデータセットは、2022 年に公開されたインターネット データをソースとしており、一貫性のある安定した更新を備えた高品質で信頼性の高い発信元を確保するために、複数回のクレンジングと処理が行われました。
このデータセットは、中国の垂直領域の大規模モデルの事前トレーニングをサポートするだけでなく、関連分野での深層学習の研究と応用の推進にも役立ちます。

要約(オリジナル)

With the advancement of deep learning technologies, general-purpose large models such as GPT-4 have demonstrated exceptional capabilities across various domains. Nevertheless, there remains a demand for high-quality, domain-specific outputs in areas like healthcare, law, and finance. This paper first evaluates the existing large models for specialized domains and discusses their limitations. To cater to the specific needs of certain domains, we introduce the “MiChao-HuaFen 1.0” pre-trained corpus dataset, tailored for the news and governmental sectors. The dataset, sourced from publicly available internet data from 2022, underwent multiple rounds of cleansing and processing to ensure high quality and reliable origins, with provisions for consistent and stable updates. This dataset not only supports the pre-training of large models for Chinese vertical domains but also aids in propelling deep learning research and applications in related fields.

arxiv情報

著者 Yidong Liu,FuKai Shang,Fang Wang,Rui Xu,Jun Wang,Wei Li,Yao Li,Conghui He
発行日 2023-09-26 10:38:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク