Xmodel-1.5: An 1B-scale Multilingual LLM

要約

約 2 兆個のトークンで事前トレーニングされた、新しい 10 億パラメータの多言語大規模モデルである Xmodel-1.5 を紹介します。
このモデルは、複数の言語にわたって優れたパフォーマンスを示しており、特にタイ語、アラビア語、フランス語で顕著な結果が得られ、さらに中国語と英語でもその効果が顕著です。
さらに、私たちはタイの評価データセットをリリースすることで研究コミュニティに貢献しています。このデータセットには、チュラロンコン大学統合イノベーション学部の学生が注釈を付けた数百の質問が含まれています。
結果は有望ですが、まだ改善の余地があることを認識しています。
私たちは、この研究が多言語 AI 研究における継続的な取り組みを前進させ、さまざまな自然言語処理タスクにおける言語間の理解を促進することを願っています。
私たちのモデルとコードは、GitHub (https://github.com/XiaoduoAILab/XmodelLM) で公開されています。

要約(オリジナル)

We introduce Xmodel-1.5, a novel 1-billion-parameter multilingual large model pretrained on approximately 2 trillion tokens. The model demonstrates strong performance across several languages, with particularly notable results in Thai, Arabic, and French, alongside its effectiveness in Chinese and English. In addition, we contribute to the research community by releasing a Thai evaluation dataset, which includes hundreds of questions annotated by students from Chulalongkorn University’s School of Integrated Innovation. While the results are promising, we acknowledge that there is still room for improvement. We hope this work advances ongoing efforts in multilingual AI research and promotes better cross-linguistic understanding in various natural language processing tasks. Our models and code are publicly available on GitHub at https://github.com/XiaoduoAILab/XmodelLM.

arxiv情報

著者 Wang Qun,Liu Yang,Lin Qingquan,Jiang Ling
発行日 2024-11-15 10:01:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク