要約
この文書では、繁体字中国語のサポートが強化された多言語言語モデル BLOOM-zh を紹介します。
BLOOM-zh は、2022 年に BigScience によって発表されたオープンソースの BLOOM モデルに起源を持ちます。リリースされたモデルから始めて、ニュースなどのさまざまなドメインをカバーする繁体字中国語と英語の追加の 74 億トークンによって BLOOM の事前トレーニングを拡張しました。
記事、書籍、百科事典、教育資料、および話し言葉。
BLOOM-zh の特性を示すために、既存のベンチマーク シナリオと新しく作成したベンチマーク シナリオの両方を使用してパフォーマンスを評価します。
BLOOM-zh は、英語機能を維持しながら、ほとんどの繁体字中国語ベンチマークで以前の製品を上回っています。
私たちはすべてのモデルを研究コミュニティにリリースします。
要約(オリジナル)
In this paper we present the multilingual language model BLOOM-zh that features enhanced support for Traditional Chinese. BLOOM-zh has its origins in the open-source BLOOM models presented by BigScience in 2022. Starting from released models, we extended the pre-training of BLOOM by additional 7.4 billion tokens in Traditional Chinese and English covering a variety of domains such as news articles, books, encyclopedias, educational materials as well as spoken language. In order to show the properties of BLOOM-zh, both existing and newly created benchmark scenarios are used for evaluating the performance. BLOOM-zh outperforms its predecessor on most Traditional Chinese benchmarks while maintaining its English capability. We release all our models to the research community.
arxiv情報
著者 | Philipp Ennen,Po-Chun Hsu,Chan-Jan Hsu,Chang-Le Liu,Yen-Chen Wu,Yin-Hsiang Liao,Chin-Tung Lin,Da-Shan Shiu,Wei-Yun Ma |
発行日 | 2023-06-23 14:54:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google