MC^2: A Multilingual Corpus of Minority Languages in China

要約

大規模コーパスは、大規模言語モデル (LLM) の構築において重要な役割を果たします。
しかし、既存の LLM は、トレーニング データが不足しているため、中国の少数言語を含む低リソース言語を理解する能力が限られています。
これらの言語のアクセシビリティを向上させるために、現時点で最大のオープンソース コーパスである、中国の少数言語の多言語コーパスである MC^2 を紹介します。
これには、過小評価されている 4 つの言語、つまりチベット語、ウイグル語、カザフ語アラビア文字のカザフ語、および伝統的なモンゴル文字のモンゴル語が含まれます。
特に、MC^2 の 2 つの書記体系は、以前のコーパスでは長い間無視されてきました。
既存の多言語コーパスの低リソース言語分割における深刻な汚染を特定したため、代表性と多様性を強化しながら品質と正確さを優先し、MC^2 を収集するための品質中心のソリューションを提案します。
綿密な分析により、長文モデリングや書記体系の多様性など、MC^2 がもたらす新たな研究課題を実証します。
私たちは、MC^2 が中国で過小評価されている言語の公平性を高め、リソースの少ない言語に関するさらなる研究のための信頼できるデータ基盤を提供できることを願っています。

要約(オリジナル)

Large-scale corpora play a vital role in the construction of large language models (LLMs). However, existing LLMs exhibit limited abilities in understanding low-resource languages, including the minority languages in China, due to a lack of training data. To improve the accessibility of these languages, we present MC^2, a Multilingual Corpus of Minority Languages in China, which is the largest open-source corpus so far. It encompasses four underrepresented languages, i.e., Tibetan, Uyghur, Kazakh in the Kazakh Arabic script, and Mongolian in the traditional Mongolian script. Notably, two writing systems in MC^2 are long neglected in previous corpora. As we identify serious contamination in the low-resource language split in the existing multilingual corpora, we propose a quality-centric solution for collecting MC^2, prioritizing quality and accuracy while enhancing representativeness and diversity. By in-depth analysis, we demonstrate the new research challenges MC^2 brings, such as long-text modeling and multiplicity of writing systems. We hope MC^2 can help enhance the equity of the underrepresented languages in China and provide a reliable data foundation for further research on low-resource languages.

arxiv情報

著者 Chen Zhang,Mingxu Tao,Quzhe Huang,Jiuheng Lin,Zhibin Chen,Yansong Feng
発行日 2023-11-14 17:45:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク