LOLA — An Open-Source Massively Multilingual Large Language Model

要約

この論文では、疎な専門家混合トランスフォーマー アーキテクチャを使用して 160 以上の言語でトレーニングされた大規模な多言語大規模言語モデルである LOLA について説明します。
私たちのアーキテクチャと実装の選択は、効率を維持し、多言語にありがちな落とし穴を回避しながら、言語の多様性を活用するという課題に対処します。
評価結果の分析では、自然言語の生成と理解タスクにおいて競争力のあるパフォーマンスが示されています。
さらに、学習されたエキスパートルーティングメカニズムが暗黙の系統発生的言語パターンを利用して、多言語性の呪縛を潜在的に軽減する方法を示します。
トレーニング プロセスの詳細な調査、データセットの分析、モデルの長所と限界のバランスのとれた調査を提供します。
オープンソース モデルとして、LOLA は再現性を高め、将来の研究のための強固な基盤として機能します。
私たちの発見により、言語間で強力でスケーラブルなパフォーマンスを備えた、計算効率の高い多言語モデルの開発が可能になります。

要約(オリジナル)

This paper presents LOLA, a massively multilingual large language model trained on more than 160 languages using a sparse Mixture-of-Experts Transformer architecture. Our architectural and implementation choices address the challenge of harnessing linguistic diversity while maintaining efficiency and avoiding the common pitfalls of multilinguality. Our analysis of the evaluation results shows competitive performance in natural language generation and understanding tasks. Additionally, we demonstrate how the learned expert-routing mechanism exploits implicit phylogenetic linguistic patterns to potentially alleviate the curse of multilinguality. We provide an in-depth look at the training process, an analysis of the datasets, and a balanced exploration of the model’s strengths and limitations. As an open-source model, LOLA promotes reproducibility and serves as a robust foundation for future research. Our findings enable the development of compute-efficient multilingual models with strong, scalable performance across languages.

arxiv情報

著者 Nikit Srivastava,Denis Kuchelev,Tatiana Moteu,Kshitij Shetty,Michael Röder,Diego Moussallem,Hamada Zahera,Axel-Cyrille Ngonga Ngomo
発行日 2024-09-18 13:55:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク