Aya 23: Open Weight Releases to Further Multilingual Progress

要約

この技術レポートでは、多言語言語モデルのファミリーであるAya 23を紹介します。
aya 23 は、Aya モデルの最近のリリース (\’Ust\’un et al., 2024) に基づいて構築されており、高性能の事前トレーニング済みモデルと最近リリースされた Aya コレクション (Singh et al., 2024) を組み合わせることに重点を置いています。
その結果、23 言語をサポートする強力な多言語大規模言語モデルが誕生し、最先端の言語モデリング機能が世界人口の約半数に拡張されました。
aya モデルは 101 の言語をカバーしていましたが、Aya 23 は詳細と幅を比較した実験であり、事前トレーニング中に含まれる少数の言語により多くの容量を割り当てることの影響を調査しています。
aya 23 は、カバーする言語に関しては、Aya 101 のような以前の大規模多言語モデルだけでなく、広範な識別タスクや生成タスクにおいて、Gemma、Mistral、Mixtral などの広く使用されているモデルの両方を上回っています。
私たちは、多言語の進歩へのアクセスを拡大するための継続的な取り組みの一環として、8B モデルと 35B モデルの両方のオープンウェイトをリリースします。

要約(オリジナル)

This technical report introduces Aya 23, a family of multilingual language models. Aya 23 builds on the recent release of the Aya model (\’Ust\’un et al., 2024), focusing on pairing a highly performant pre-trained model with the recently released Aya collection (Singh et al., 2024). The result is a powerful multilingual large language model serving 23 languages, expanding state-of-art language modeling capabilities to approximately half of the world’s population. The Aya model covered 101 languages whereas Aya 23 is an experiment in depth vs breadth, exploring the impact of allocating more capacity to fewer languages that are included during pre-training. Aya 23 outperforms both previous massively multilingual models like Aya 101 for the languages it covers, as well as widely used models like Gemma, Mistral and Mixtral on an extensive range of discriminative and generative tasks. We release the open weights for both the 8B and 35B models as part of our continued commitment for expanding access to multilingual progress.

arxiv情報

著者 Viraat Aryabumi,John Dang,Dwarak Talupuru,Saurabh Dash,David Cairuz,Hangyu Lin,Bharat Venkitesh,Madeline Smith,Jon Ander Campos,Yi Chern Tan,Kelly Marchisio,Max Bartolo,Sebastian Ruder,Acyr Locatelli,Julia Kreutzer,Nick Frosst,Aidan Gomez,Phil Blunsom,Marzieh Fadaee,Ahmet Üstün,Sara Hooker
発行日 2024-05-31 14:47:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク