Extending the Pre-Training of BLOOM for Improved Support of Traditional Chinese: Models, Methods and Results

要約

このホワイト ペーパーでは、繁体字中国語のサポートが強化された多言語モデル BLOOM-zh を紹介します。
BLOOM-zh は、2022 年に BigScience によって提示されたオープンソースの BLOOM モデルに起源を持ちます。リリースされたモデルから始めて、BLOOM の事前トレーニングを、ニュースなどのさまざまなドメインをカバーする繁体字中国語と英語でさらに 74 億トークン拡張しました。
記事、本、百科事典、教材、話し言葉。
BLOOM-zh の特性を示すために、既存のベンチマーク シナリオと新しく作成されたベンチマーク シナリオの両方を使用してパフォーマンスを評価します。
BLOOM-zh は、英語機能を維持しながら、ほとんどの繁体字中国語のベンチマークで前任者よりも優れています。
すべてのモデルを研究コミュニティに公開します。

要約(オリジナル)

In this paper we present the multilingual language model BLOOM-zh that features enhanced support for Traditional Chinese. BLOOM-zh has its origins in the open-source BLOOM models presented by BigScience in 2022. Starting from released models, we extended the pre-training of BLOOM by additional 7.4 billion tokens in Traditional Chinese and English covering a variety of domains such as news articles, books, encyclopedias, educational materials as well as spoken language. In order to show the properties of BLOOM-zh, both existing and newly created benchmark scenarios are used for evaluating the performance. BLOOM-zh outperforms its predecessor on most Traditional Chinese benchmarks while maintaining its English capability. We release all our models to the research community.

arxiv情報

著者 Philipp Ennen,Po-Chun Hsu,Chan-Jan Hsu,Chang-Le Liu,Yen-Chen Wu,Yin-Hsiang Liao,Chin-Tung Lin,Da-Shan Shiu,Wei-Yun Ma
発行日 2023-03-08 16:53:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク