FuxiTranyu: A Multilingual Large Language Model Trained with Balanced Data

要約

大規模言語モデル (LLM) は、幅広いタスクで優れた能力を発揮しています。
ただし、多くの LLM では、高リソース言語と低リソース言語の間でパフォーマンスに大きな差異が見られます。
この課題を軽減するために、私たちはオープンソースの多言語 LLM である FuxiTranyu を紹介します。これは、バランスのとれた高性能の多言語機能に対する研究コミュニティのニーズを満たすように設計されています。
FuxiTranyu-8B は 80 億のパラメータを持つ基本モデルで、43 の自然言語と 16 のプログラミング言語をカバーする 6,000 億のトークンを含む、細心の注意を払ってバランスのとれた多言語データ リポジトリでゼロからトレーニングされます。
基本モデルに加えて、2 つの命令調整モデルも開発しています。FuxiTranyu-8B-SFT は多様な多言語命令データセットで微調整され、FuxiTranyu-8B-DPO は好みのデータセットで DPO でさらに洗練されています。
アライメント能力が強化されました。
幅広い多言語ベンチマークに関する広範な実験により、BLOOM-7B、PolyLM-13B、Llama-2-Chat-7B、Mistral-7B-Instruct などの既存の多言語 LLM に対する FuxiTranyu の競合パフォーマンスが実証されています。
ニューロンレベルと表現レベルの両方での解釈可能性の分析は、FuxiTranyu が異なる言語間で一貫した多言語表現を学習できることを示唆しています。
多言語 LLM とその動作メカニズムのさらなる研究を促進するために、ベース モデルと命令調整された FuxiTranyu モデルの両方を、58 の事前トレーニング チェックポイントとともに HuggingFace と Github でリリースします。

要約(オリジナル)

Large language models (LLMs) have demonstrated prowess in a wide range of tasks. However, many LLMs exhibit significant performance discrepancies between high- and low-resource languages. To mitigate this challenge, we present FuxiTranyu, an open-source multilingual LLM, which is designed to satisfy the need of the research community for balanced and high-performing multilingual capabilities. FuxiTranyu-8B, the base model with 8 billion parameters, is trained from scratch on a meticulously balanced multilingual data repository that contains 600 billion tokens covering 43 natural languages and 16 programming languages. In addition to the base model, we also develop two instruction-tuned models: FuxiTranyu-8B-SFT that is fine-tuned on a diverse multilingual instruction dataset, and FuxiTranyu-8B-DPO that is further refined with DPO on a preference dataset for enhanced alignment ability. Extensive experiments on a wide range of multilingual benchmarks demonstrate the competitive performance of FuxiTranyu against existing multilingual LLMs, e.g., BLOOM-7B, PolyLM-13B, Llama-2-Chat-7B and Mistral-7B-Instruct. Interpretability analyses at both the neuron and representation level suggest that FuxiTranyu is able to learn consistent multilingual representations across different languages. To promote further research into multilingual LLMs and their working mechanisms, we release both the base and instruction-tuned FuxiTranyu models together with 58 pretraining checkpoints at HuggingFace and Github.

arxiv情報

著者 Haoran Sun,Renren Jin,Shaoyang Xu,Leiyu Pan,Supryadi,Menglong Cui,Jiangcun Dui,Yikun Lei,Lei Yang,Ling Shi,Juesi Xiao,Shaolin Zhu,Deyi Xiong
発行日 2024-08-12 16:34:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク