Xmodel-1.5: An 1B-scale Multilingual LLM

要約

Xmodel-1.5 は、2 兆のトークンで事前トレーニングされた 10 億パラメータの多言語大規模言語モデルであり、バランスの取れたパフォーマンスとスケーラビリティを実現するように設計されています。
BPE トークナイザーを使用するほとんどの大規模モデルとは異なり、Xmodel-1.5 は 65,280 個のトークンを含むカスタム ユニグラム トークナイザーを採用し、効率と精度の両方を最適化します。
このモデルは、タイ語、アラビア語、フランス語、中国語、英語を含む複数の言語にわたって競争力のある結果をもたらし、それぞれの評価データセットでアリババの PolyLM-1.7B を上回っています。
Xmodel-1.5 は、mMMLU や PIQA などのベンチマークで優れており、タイ語で最先端の結果を達成します。
低リソースの言語研究をサポートするために、性差助詞やイディオムなどの独特の言語的課題を特徴とするタイ固有の評価データセットである Xdata_Thai をリリースします。
このモデルは強力なパフォーマンスを示していますが、文化特有のニュアンスの処理にはまだ改善の余地があります。
この研究が多言語 AI 研究の進歩に貢献することを願っています。
モデルとコードは GitHub (https://github.com/XiaoduoAILab/XmodelLM-1.5) で公開されています。

要約(オリジナル)

We introduce Xmodel-1.5, a 1-billion-parameter multilingual large language model pretrained on 2 trillion tokens, designed for balanced performance and scalability. Unlike most large models that use the BPE tokenizer, Xmodel-1.5 employs a custom unigram tokenizer with 65,280 tokens, optimizing both efficiency and accuracy. The model delivers competitive results across multiple languages, including Thai, Arabic, French, Chinese, and English, outperforming Alibaba’s PolyLM-1.7B on respective evaluation datasets. Xmodel-1.5 excels in benchmarks like mMMLU and PIQA, and achieves state-of-the-art results in Thai. To support low-resource language research, we release Xdata_Thai, a Thai-specific evaluation dataset featuring unique linguistic challenges such as gendered particles and idioms. While the model demonstrates strong performance, there is still room for improvement in handling culturally specific nuances. We hope this work contributes to advancements in multilingual AI research. Models and code are publicly available on GitHub at https://github.com/XiaoduoAILab/XmodelLM-1.5

arxiv情報

著者 Wang Qun,Liu Yang,Lin Qingquan,Jiang Ling
発行日 2024-11-22 08:57:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク