PolyLM: An Open Source Polyglot Large Language Model

要約

大規模言語モデル (LLM) は、自然言語の指示を理解し、推論し、生成するという優れた能力を示します。
ただし、LLM の開発は主に英語などの高リソース言語に焦点を当てているため、他の言語での LLM の適用性や研究は制限されています。
その結果、6,400 億 (B) トークンでトレーニングされた多言語 LLM である PolyLM を紹介します。これは、1.7B と 13B の 2 つのモデル サイズで利用可能です。
多言語機能を強化するために、1) バイリンガル データをトレーニング データに統合します。
2) 事前トレーニング中に、英語以外のデータの割合を最初の段階の 30% から最終段階の 60% に増やすカリキュラム学習戦略を採用します。
さらに、モデル微調整のための 132.7K の多様な多言語命令を自動的に生成する多言語自己命令手法を提案します。
モデルのパフォーマンスを評価するために、多言語の理解、質問応答、生成、翻訳など、いくつかの既存の多言語タスクを収集します。
広範な実験により、PolyLM は英語で同等のパフォーマンスを維持しながら、多言語タスクにおいて LLaMA や BLOOM などの他のオープンソース モデルを上回ることが示されました。
私たちのモデルは、命令データと多言語ベンチマークのみを含めて、\url{https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation} から入手できます。

要約(オリジナル)

Large language models (LLMs) demonstrate remarkable ability to comprehend, reason, and generate following nature language instructions. However, the development of LLMs has been primarily focused on high-resource languages, such as English, thereby limiting their applicability and research in other languages. Consequently, we present PolyLM, a multilingual LLM trained on 640 billion (B) tokens, avaliable in two model sizes: 1.7B and 13B. To enhance its multilingual capabilities, we 1) integrate bilingual data into training data; and 2) adopt a curriculum learning strategy that increases the proportion of non-English data from 30% in the first stage to 60% in the final stage during pre-training. Further, we propose a multilingual self-instruct method which automatically generates 132.7K diverse multilingual instructions for model fine-tuning. To assess the model’s performance, we collect several existing multilingual tasks, including multilingual understanding, question answering, generation, and translation. Extensive experiments show that PolyLM surpasses other open-source models such as LLaMA and BLOOM on multilingual tasks while maintaining comparable performance in English. Our models, alone with the instruction data and multilingual benchmark, are available at: \url{https://modelscope.cn/models/damo/nlp_polylm_13b_text_generation}.

arxiv情報

著者 Xiangpeng Wei,Haoran Wei,Huan Lin,Tianhao Li,Pei Zhang,Xingzhang Ren,Mei Li,Yu Wan,Zhiwei Cao,Binbin Xie,Tianxiang Hu,Shangjie Li,Binyuan Hui,Bowen Yu,Dayiheng Liu,Baosong Yang,Fei Huang,Jun Xie
発行日 2023-07-12 09:00:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク