要約
このホワイト ペーパーでは、繁体字中国語のサポートが強化された多言語モデル BLOOM-zh を紹介します。
BLOOM-zh は、2022 年に BigScience によって提示されたオープンソースの BLOOM モデルに起源を持ちます。リリースされたモデルから始めて、BLOOM の事前トレーニングを、ニュースなどのさまざまなドメインをカバーする繁体字中国語と英語でさらに 74 億トークン拡張しました。
記事、本、百科事典、教材、話し言葉。
BLOOM-zh の特性を示すために、既存のベンチマーク シナリオと新しく作成されたベンチマーク シナリオの両方を使用してパフォーマンスを評価します。
BLOOM-zh は、英語機能を維持しながら、ほとんどの繁体字中国語のベンチマークで前任者よりも優れています。
すべてのモデルを研究コミュニティに公開します。
要約(オリジナル)
In this paper we present the multilingual language model BLOOM-zh that features enhanced support for Traditional Chinese. BLOOM-zh has its origins in the open-source BLOOM models presented by BigScience in 2022. Starting from released models, we extended the pre-training of BLOOM by additional 7.4 billion tokens in Traditional Chinese and English covering a variety of domains such as news articles, books, encyclopedias, educational materials as well as spoken language. In order to show the properties of BLOOM-zh, both existing and newly created benchmark scenarios are used for evaluating the performance. BLOOM-zh outperforms its predecessor on most Traditional Chinese benchmarks while maintaining its English capability. We release all our models to the research community.
arxiv情報
著者 | Philipp Ennen,Po-Chun Hsu,Chan-Jan Hsu,Chang-Le Liu,Yen-Chen Wu,Yin-Hsiang Liao,Chin-Tung Lin,Da-Shan Shiu,Wei-Yun Ma |
発行日 | 2023-03-08 16:53:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google