要約
この研究では、低リソース言語の言語カバレッジの向上に焦点を当て、多言語パフォーマンスを強化するために設計された、546 言語にわたるテキストで継続的にトレーニングされた大規模な多言語言語モデルである EMMA-500 を紹介します。
継続的な事前トレーニングを促進するために、さまざまなドメインにわたって精選されたデータセットで強化された包括的な多言語データセットである MaLA コーパスをコンパイルします。
このコーパスを活用して、Llama 2 7B モデルの大規模な継続的事前トレーニングを実施し、結果として EMMA-500 が得られます。これは、包括的な多言語タスクのセットやオープンエンド世代の PolyWrite など、幅広いベンチマークのコレクションにわたって堅牢なパフォーマンスを実証します。
この研究で開発されたベンチマーク。
私たちの結果は、特に過小評価されている言語において、大規模な言語モデルの言語能力を拡張する継続的な事前トレーニングの有効性を強調し、言語を越えた伝達、タスクの一般化、および言語の適応性において大幅な向上を示しています。
要約(オリジナル)
In this work, we introduce EMMA-500, a large-scale multilingual language model continue-trained on texts across 546 languages designed for enhanced multilingual performance, focusing on improving language coverage for low-resource languages. To facilitate continual pre-training, we compile the MaLA corpus, a comprehensive multilingual dataset enriched with curated datasets across diverse domains. Leveraging this corpus, we conduct extensive continual pre-training of the Llama 2 7B model, resulting in EMMA-500, which demonstrates robust performance across a wide collection of benchmarks, including a comprehensive set of multilingual tasks and PolyWrite, an open-ended generation benchmark developed in this study. Our results highlight the effectiveness of continual pre-training in expanding large language models’ language capacity, particularly for underrepresented languages, demonstrating significant gains in cross-lingual transfer, task generalization, and language adaptability.
arxiv情報
著者 | Shaoxiong Ji,Zihao Li,Indraneil Paul,Jaakko Paavola,Peiqin Lin,Pinzhen Chen,Dayyán O’Brien,Hengyu Luo,Hinrich Schütze,Jörg Tiedemann,Barry Haddow |
発行日 | 2024-09-26 14:40:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google