Sabiá: Portuguese Large Language Models

要約

言語モデルの機能が進化し続けるにつれて、「フリーサイズですべてに適合する」モデルが主要なパラダイムとして残り続けると考えられます。
たとえば、世界中には膨大な数の言語があり、その多くはリソースが少ないことを考慮すると、複数の言語で単一のモデルを事前トレーニングすることが一般的です。
この論文では、この慣行に異議を唱える証拠をさらに追加し、ターゲット言語での単一言語の事前トレーニングによって、すでに多様なコーパスで広範にトレーニングされたモデルが大幅に改善されることを示しています。
より具体的には、元の事前トレーニング予算の 3% 以下を使用して、ポルトガル語テキストに関する GPT-J モデルと LLaMA モデルをさらに事前トレーニングします。
14 のポルトガル語データセットのスイートである Poeta に対するいくつかのショットの評価では、私たちのモデルが英語中心の多言語対応モデルよりも大幅に優れていることが明らかになりました。
当社の最高のモデルである Sabi\’a-65B は、GPT-3.5-turbo と同等のパフォーマンスを発揮します。
元々ターゲット言語で考えられたデータセットと翻訳されたデータセットを評価することにより、1) ターゲット言語に固有の言語のニュアンスと構造の捕捉、2) ターゲット言語に関するモデルの知識の強化という観点から、言語固有の事前トレーニングの貢献を研究します。
ドメインとか文化とか。
私たちの結果は、利点の大部分が、単一言語の事前トレーニングを通じて獲得されたドメイン固有の知識に由来していることを示しています。

要約(オリジナル)

As the capabilities of language models continue to advance, it is conceivable that ‘one-size-fits-all’ model will remain as the main paradigm. For instance, given the vast number of languages worldwide, many of which are low-resource, the prevalent practice is to pretrain a single model on multiple languages. In this paper, we add to the growing body of evidence that challenges this practice, demonstrating that monolingual pretraining on the target language significantly improves models already extensively trained on diverse corpora. More specifically, we further pretrain GPT-J and LLaMA models on Portuguese texts using 3% or less of their original pretraining budget. Few-shot evaluations on Poeta, a suite of 14 Portuguese datasets, reveal that our models outperform English-centric and multilingual counterparts by a significant margin. Our best model, Sabi\’a-65B, performs on par with GPT-3.5-turbo. By evaluating on datasets originally conceived in the target language as well as translated ones, we study the contributions of language-specific pretraining in terms of 1) capturing linguistic nuances and structures inherent to the target language, and 2) enriching the model’s knowledge about a domain or culture. Our results indicate that the majority of the benefits stem from the domain-specific knowledge acquired through monolingual pretraining.

arxiv情報

著者 Ramon Pires,Hugo Abonizio,Thales Sales Almeida,Rodrigo Nogueira
発行日 2023-11-09 10:36:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク