要約
大規模言語モデル (LLM) における最近の進歩は、少数のデータ豊富な言語を中心に行われています。
第一級市民言語を超えて画期的な技術へのアクセスを広げるには何が必要でしょうか?
私たちの研究では、Aya という大規模な多言語生成言語モデルを導入しています。これは、50% 以上が低リソースと考えられている 101 言語の指示に従います。
aya は、2 倍の言語数をカバーしながら、ほとんどのタスクで mT0 や BLOOMZ よりも優れたパフォーマンスを発揮します。
私たちは、99 言語にわたる多言語評価の最先端を拡張する広範な新しい評価スイートを導入しています。これには、識別タスクと生成タスク、人間による評価、保留タスクと分散パフォーマンスの両方をカバーするシミュレートされた勝率が含まれます。
さらに、最適な微調整混合物組成、データの枝刈り、モデルの毒性、偏り、安全性に関する詳細な調査を実施します。
命令データセットとモデルを https://hf.co/CohereForAI/aya-101 でオープンソース化しています。
要約(オリジナル)
Recent breakthroughs in large language models (LLMs) have centered around a handful of data-rich languages. What does it take to broaden access to breakthroughs beyond first-class citizen languages? Our work introduces Aya, a massively multilingual generative language model that follows instructions in 101 languages of which over 50% are considered as lower-resourced. Aya outperforms mT0 and BLOOMZ on the majority of tasks while covering double the number of languages. We introduce extensive new evaluation suites that broaden the state-of-art for multilingual eval across 99 languages — including discriminative and generative tasks, human evaluation, and simulated win rates that cover both held-out tasks and in-distribution performance. Furthermore, we conduct detailed investigations on the optimal finetuning mixture composition, data pruning, as well as the toxicity, bias, and safety of our models. We open-source our instruction datasets and our model at https://hf.co/CohereForAI/aya-101
arxiv情報
著者 | Ahmet Üstün,Viraat Aryabumi,Zheng-Xin Yong,Wei-Yin Ko,Daniel D’souza,Gbemileke Onilude,Neel Bhandari,Shivalika Singh,Hui-Lee Ooi,Amr Kayid,Freddie Vargus,Phil Blunsom,Shayne Longpre,Niklas Muennighoff,Marzieh Fadaee,Julia Kreutzer,Sara Hooker |
発行日 | 2024-02-12 17:34:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google