Sabiá: Portuguese Large Language Models

要約

タイトル:Sabiá:ポルトガル語大規模言語モデル
要約:
– 言語モデルの能力が向上するにつれて、「一つのモデルが全てに適用される」というパラダイムが主流になる可能性がある。
– 多数の言語があり、そのうち多くが低リソースであるため、現在の主な方法は複数の言語で一つのモデルを事前学習することである。
– そのため、本研究では、対象言語で単一言語事前学習を行うことで、既存の多様なコーパスで十分に訓練されたモデルを改善できることを示す。
– 実験では、GPT-JおよびLLaMAモデルを、元の事前学習予算の3%以下のポルトガル語テキストで更に事前学習し、ポルトガル語の14個のデータセットスイートであるPoetaでのフューショット評価を行った。
– 結果として、英語中心および多言語のマルチモデルを上回る成績を出し、最高モデルであるSabiá-65BはGPT-3.5-turboと同等の成績を出した。
– 対象言語で翻訳されたデータセットだけでなく、元来対象言語で構想されたデータセットを評価することで、1)ターゲット言語固有の言語的ニュアンスや構造を把握すること、2)ドメインや文化に関するモデルの知識を豊富にすることにおいて、単一言語事前学習の貢献を研究した。
– 結果から、ドメイン固有の知識のほとんどが単一言語事前学習によるものであることが明らかになった。

要約(オリジナル)

As the capabilities of language models continue to advance, it is conceivable that ‘one-size-fits-all’ model will remain as the main paradigm. For instance, given the vast number of languages worldwide, many of which are low-resource, the prevalent practice is to pretrain a single model on multiple languages. In this paper, we add to the growing body of evidence that challenges this practice, demonstrating that monolingual pretraining on the target language significantly improves models already extensively trained on diverse corpora. More specifically, we further pretrain GPT-J and LLaMA models on Portuguese texts using 3% or less of their original pretraining budget. Few-shot evaluations on Poeta, a suite of 14 Portuguese datasets, reveal that our models outperform English-centric and multilingual counterparts by a significant margin. Our best model, Sabi\’a-65B, performs on par with GPT-3.5-turbo. By evaluating on datasets originally conceived in the target language as well as translated ones, we study the contributions of language-specific pretraining in terms of 1) capturing linguistic nuances and structures inherent to the target language, and 2) enriching the model’s knowledge about a domain or culture. Our results indicate that the majority of the benefits stem from the domain-specific knowledge acquired through monolingual pretraining.

arxiv情報

著者 Ramon Pires,Hugo Abonizio,Thales Rogério,Rodrigo Nogueira
発行日 2023-04-16 20:11:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク