Sailor: Open Language Models for South-East Asia

要約

Sailorは、0.5Bから7Bのパラメータを持つ、東南アジア(SEA)言語向けのオープンな言語モデルです。これらのモデルは、多言語ユースケースのための優れた言語モデルであるQwen1.5から継続的に事前学習されています。Qwen1.5から、Sailorモデルは200Bから400Bのトークンを受け入れ、主に英語、中国語、ベトナム語、タイ語、インドネシア語、マレー語、ラオス語をカバーします。学習では、モデルの頑健性を向上させるためのBPEドロップアウト、積極的なデータクリーニングと重複排除、データ混合を最適化するための小規模なプロキシモデルなど、いくつかの技術を活用している。4つの典型的なタスクに関する実験結果から、Sailorモデルが、常識的推論、質問応答、読解、試験など、さまざまなベンチマークで強力な性能を発揮することが示されています。オープンソースの精神を尊重し、多言語ユースケースのための大規模言語モデルの開発に対するより広い関心を喚起するため、本レポートを通じて我々の洞察を共有します。

要約(オリジナル)

We present Sailor, a family of open language models ranging from 0.5B to 7B parameters, tailored for South-East Asian (SEA) languages. These models are continually pre-trained from Qwen1.5, a great language model for multilingual use cases. From Qwen1.5, Sailor models accept 200B to 400B tokens, primarily covering the languages of English, Chinese, Vietnamese, Thai, Indonesian, Malay, and Lao. The training leverages several techniques, including BPE dropout for improving the model robustness, aggressive data cleaning and deduplication, and small proxy models to optimize data mixture. Experimental results on four typical tasks indicate that Sailor models demonstrate strong performance across different benchmarks, including commonsense reasoning, question answering, reading comprehension and examination. Embracing the open-source spirit, we share our insights through this report to spark a wider interest in developing large language models for multilingual use cases.

arxiv情報

著者 Longxu Dou,Qian Liu,Guangtao Zeng,Jia Guo,Jiahui Zhou,Wei Lu,Min Lin
発行日 2024-04-04 17:31:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク