要約
大規模な言語モデルにより、自然言語処理の最先端が進歩しました。
ただし、英語または限られた言語セットを対象とした主な設計により、リソースの少ない言語では有効性に大きなギャップが生じます。
このギャップを埋めるために、広範囲の 534 言語をカバーするように設計された新しい大規模言語モデルである MaLA-500 を紹介します。
MaLA-500 をトレーニングするために、語彙拡張を採用し、Glot500-c を使用した LLaMA 2 での事前トレーニングを継続しました。
SIB-200 での実験では、MaLA-500 が最先端のインコンテキスト学習結果を達成できることが示されています。
MaLA-500をhttps://huggingface.co/MaLA-LMでリリースします
要約(オリジナル)
Large language models have advanced the state of the art in natural language processing. However, their predominant design for English or a limited set of languages creates a substantial gap in their effectiveness for low-resource languages. To bridge this gap, we introduce MaLA-500, a novel large language model designed to cover an extensive range of 534 languages. To train MaLA-500, we employ vocabulary extension and continued pretraining on LLaMA 2 with Glot500-c. Our experiments on SIB-200 show that MaLA-500 achieves state-of-the-art in-context learning results. We release MaLA-500 at https://huggingface.co/MaLA-LM
arxiv情報
著者 | Peiqin Lin,Shaoxiong Ji,Jörg Tiedemann,André F. T. Martins,Hinrich Schütze |
発行日 | 2024-01-24 08:57:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google