Sabiá: Portuguese Large Language Models

要約

【タイトル】Sabiá:ポルトガル語の大規模言語モデル
【要約】
– 言語モデルの能力が進歩し続けるにつれて、「一つのサイズがすべてに合う」というモデルが主流になることが考えられる。
– 多数の低リソース言語を含む多数の言語があるため、一般的には複数の言語で単一のモデルを事前学習することが行われる。
– 本論文では、単一のターゲット言語で事前学習することが、既に多様なコーパスで広範に学習したモデルの性能を著しく向上させることを示す証拠の増加に貢献する。
– より具体的には、本論文では、PortugueseテキストでGPT-JとLLaMAモデルを3%以下の元の事前学習予算で事前学習させ、14のPortugueseデータセットであるPoetaに対する小規模な評価において、英語中心のモデルや多言語モデルに対して著しく優れた結果を示した。
– 最良のモデルであるSabi\’a-65Bは、GPT-3.5-turboと同等の性能を発揮した。
– ターゲット言語で最初に構想されたデータセットと、翻訳されたデータセットの両方を評価することにより、言語固有の事前学習の貢献を、1)ターゲット言語固有の言語のニュアンスや構造を捉えること、2)ドメインや文化に関するモデルの知識を豊かにすることの2つの観点で研究した。
– 結果からは、モデルのドメイン固有の知識が単語固有の言語学的ニュアンスよりも優れていることが示されている。

要約(オリジナル)

As the capabilities of language models continue to advance, it is conceivable that ‘one-size-fits-all’ model will remain as the main paradigm. For instance, given the vast number of languages worldwide, many of which are low-resource, the prevalent practice is to pretrain a single model on multiple languages. In this paper, we add to the growing body of evidence that challenges this practice, demonstrating that monolingual pretraining on the target language significantly improves models already extensively trained on diverse corpora. More specifically, we further pretrain GPT-J and LLaMA models on Portuguese texts using 3% or less of their original pretraining budget. Few-shot evaluations on Poeta, a suite of 14 Portuguese datasets, reveal that our models outperform English-centric and multilingual counterparts by a significant margin. Our best model, Sabi\’a-65B, performs on par with GPT-3.5-turbo. By evaluating on datasets originally conceived in the target language as well as translated ones, we study the contributions of language-specific pretraining in terms of 1) capturing linguistic nuances and structures inherent to the target language, and 2) enriching the model’s knowledge about a domain or culture. Our results indicate that the majority of the benefits stem from the domain-specific knowledge acquired through monolingual pretraining.

arxiv情報

著者 Ramon Pires,Hugo Abonizio,Thales Sales Almeida,Rodrigo Nogueira
発行日 2023-04-18 23:52:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク