要約
大規模言語モデル(LLM)は、その強力な生成能力と膨大な知識により、日常生活における様々なタスクを支援している。しかし、これらの能力は主に高リソース言語に集中しており、低リソース言語では生成能力が弱く、知識も比較的限られている。したがって、LLMの多言語能力を強化することは、世界中の100を超える言語コミュニティに貢献する上で極めて重要である。多言語能力を強化するための直感的なアプローチは、様々な言語の命令データを構築することであるが、100以上の言語の命令データを構築することは、法外なコストがかかる。本論文では、言語アライメントを通じて、高リソース言語から低リソース言語へ効率的に生成能力と知識を移転するBayLing 2を紹介する。そのために、高リソース言語の命令(中国語と英語)と100以上の言語のクロスリンガル命令からなる320万命令のデータセットを構築し、言語間の能力移転を容易にするために、データセットに基づいて命令のチューニングを行った。Llamaを基盤モデルとして、BayLing-2-7B、BayLing-2-13B、BayLing-2-8Bを開発し、BayLingの総合評価を行った。100言語以上の多言語翻訳において、BayLingは同規模のオープンソースモデルと比較して優れた性能を示した。多言語知識理解ベンチマークでは、BayLingは20以上の低リソース言語において有意な改善を達成し、高リソース言語から低リソース言語への効果的な知識移転の能力を実証しました。さらに、英語ベンチマークの結果は、BayLingが高リソース言語での高い性能を維持しながら、低リソース言語での性能を向上させていることを示しています。BayLingのデモ、ホームページ、コード、モデルを公開しています。
要約(オリジナル)
Large language models (LLMs), with their powerful generative capabilities and vast knowledge, empower various tasks in everyday life. However, these abilities are primarily concentrated in high-resource languages, leaving low-resource languages with weaker generative capabilities and relatively limited knowledge. Enhancing the multilingual capabilities of LLMs is therefore crucial for serving over 100 linguistic communities worldwide. An intuitive approach to enhance the multilingual capabilities would be to construct instruction data for various languages, but constructing instruction data for over 100 languages is prohibitively costly. In this paper, we introduce BayLing 2, which efficiently transfers generative capabilities and knowledge from high-resource languages to low-resource languages through language alignment. To achieve this, we constructed a dataset of 3.2 million instructions, comprising high-resource language instructions (Chinese and English) and cross-lingual instructions for 100+ languages and performed instruction tuning based on the dataset to facilitate the capability transfer between languages. Using Llama as the foundation model, we developed BayLing-2-7B, BayLing-2-13B, and BayLing-2-8B, and conducted a comprehensive evaluation of BayLing. For multilingual translation across 100+ languages, BayLing shows superior performance compared to open-source models of similar scale. For multilingual knowledge and understanding benchmarks, BayLing achieves significant improvements across over 20 low-resource languages, demonstrating its capability of effective knowledge transfer from high-resource to low-resource languages. Furthermore, results on English benchmarks indicate that BayLing maintains high performance in highresource languages while enhancing the performance in low-resource languages. Demo, homepage, code and models of BayLing are available.
arxiv情報
著者 | Shaolei Zhang,Kehao Zhang,Qingkai Fang,Shoutao Guo,Yan Zhou,Xiaodong Liu,Yang Feng |
発行日 | 2024-12-03 14:17:41+00:00 |
arxivサイト | arxiv_id(pdf) |