Extending the Pre-Training of BLOOM for Improved Support of Traditional Chinese: Models, Methods and Results

要約

この文書では、繁体字中国語のサポートが強化された多言語言語モデル BLOOM-zh を紹介します。
BLOOM-zh は、2022 年に BigScience によって発表されたオープンソースの BLOOM モデルに起源を持ちます。リリースされたモデルから始めて、ニュースなどのさまざまなドメインをカバーする繁体字中国語と英語の追加の 74 億トークンによって BLOOM の事前トレーニングを拡張しました。
記事、書籍、百科事典、教育資料、および話し言葉。
BLOOM-zh の特性を示すために、既存のベンチマーク シナリオと新しく作成したベンチマーク シナリオの両方を使用してパフォーマンスを評価します。
BLOOM-zh は、英語機能を維持しながら、ほとんどの繁体字中国語ベンチマークで以前の製品を上回っています。
私たちはすべてのモデルを研究コミュニティにリリースします。

要約(オリジナル)

In this paper we present the multilingual language model BLOOM-zh that features enhanced support for Traditional Chinese. BLOOM-zh has its origins in the open-source BLOOM models presented by BigScience in 2022. Starting from released models, we extended the pre-training of BLOOM by additional 7.4 billion tokens in Traditional Chinese and English covering a variety of domains such as news articles, books, encyclopedias, educational materials as well as spoken language. In order to show the properties of BLOOM-zh, both existing and newly created benchmark scenarios are used for evaluating the performance. BLOOM-zh outperforms its predecessor on most Traditional Chinese benchmarks while maintaining its English capability. We release all our models to the research community.

arxiv情報

著者 Philipp Ennen,Po-Chun Hsu,Chan-Jan Hsu,Chang-Le Liu,Yen-Chen Wu,Yin-Hsiang Liao,Chin-Tung Lin,Da-Shan Shiu,Wei-Yun Ma
発行日 2023-06-23 14:54:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク