Cabrita: closing the gap for foreign languages

要約

特定の言語またはドメインでモデルを最初からトレーニングする戦略は、i) 特定の言語またはドメインのコンテキストでのパフォーマンスの向上、および ii) 効果的なトークン化の確保という 2 つの重要な目的に役立ちます。
このアプローチに固有の主な制限は関連コストにあり、モデルのサイズと関係するパラメーターの数によっては、6 ~ 7 桁の金額に達する可能性があります。
コストの課題を克服する主な解決策は、利用可能な事前トレーニング済みモデルに依存することです。LLaMA モデルや LLaMA-2 モデルなどの最近の進歩にも関わらず、依然として特定のドメインの問題に対して非効率であることが実証されたり、会話型メモリ リソースが関与するシナリオでは非効率であることが判明しています。
、テキストを表現するために必要なトークンが大量にあることを考えると。
この問題を克服するために、私たちは Cabrita という方法論を紹介します。これは私たちの研究が証明しているように、手頃なコストでパフォーマンスと効率的なトークン化の問題にうまく対処します。
私たちは、この方法論はあらゆる変圧器のようなアーキテクチャ モデルに適用できると考えています。
研究を検証するために、OpenLLaMA として知られる 30 億パラメータ モデルに対してポルトガル語のテキストのみを使用して継続的な事前トレーニングを実施し、openCabrita 3B というモデルが完成しました。
openCabrita 3B は、テキストを表現するために必要なトークンの数を大幅に削減する新しいトークナイザーも備えています。
私たちの評価では、数ショット学習タスクに関して、この 3B モデルで、従来の継続的な事前トレーニング アプローチや 7B モデルの英語の事前トレーニング済みモデルと比較して、同様の結果が得られました。

要約(オリジナル)

The strategy of training the model from scratch in a specific language or domain serves two essential purposes: i) enhancing performance in the particular linguistic or domain context, and ii) ensuring effective tokenization. The main limitation inherent to this approach lies in the associated cost, which can reach six to seven-digit dollar values, depending on the model size and the number of parameters involved. The main solution to overcome the cost challenge is to rely on available pre-trained models, which, despite recent advancements such as the LLaMA and LLaMA-2 models, still demonstrate inefficiency for certain specific domain problems or prove ineffective in scenarios involving conversational memory resources, given the large number of tokens required to represent text. To overcome this issue, we present a methodology named Cabrita, which, as our research demonstrates, successfully addresses the performance and efficient tokenization problem, all at an affordable cost. We believe that this methodology can be applied to any transformer-like architecture model. To validate the study, we conducted continuous pre-training exclusively using Portuguese text on a 3-billion-parameter model known as OpenLLaMA, resulting in a model named openCabrita 3B. The openCabrita 3B also features a new tokenizer that results in a significant reduction in the number of tokens required to represent the text. In our assessment, for few-shot learning tasks, we achieved similar results with this 3B model compared to a traditional continuous pre-training approach as well as to 7B models English pre-trained models.

arxiv情報

著者 Celio Larcher,Marcos Piau,Paulo Finardi,Pedro Gengo,Piero Esposito,Vinicius Caridá
発行日 2023-08-23 02:49:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク