MERaLiON-TextLLM: Cross-Lingual Understanding of Large Language Models in Chinese, Indonesian, Malay, and Singlish

要約

多言語大規模言語モデル (MLLM) は、さまざまな言語にわたって優れた機能を示しています。
ただし、特に言語リソースが限られている言語族では、有効性が言語族ごとに大きく異なる場合があります。
このレポートでは、中国語、インドネシア語、マレー語、シングリッシュの理解と生成を向上させるために特別に調整された一連のオープンソース言語モデルである MERaLiON-TextLLM を紹介します。
最初にリリースされたモデルは Llama-3-8B-Base に基づいて構築され、継続的な事前トレーニングと重量の統合という細心の注意を払って作成されたプロセスを通じて改良されました。
私たちのアプローチは、これらの言語のベンチマーク全体でパフォーマンスの向上を実現し、公式の Llama-3 モデルの機能を超えています。
私たちは、言語を超えた言語理解におけるさらなる研究開発をサポートするリソースとしてモデル チェックポイントを提供します。

要約(オリジナル)

Multilingual large language models (MLLMs) have shown impressive capabilities across a variety of languages. However, efficacy can differ greatly between different language families, especially for those with limited linguistic resources. This report presents MERaLiON-TextLLM, a series of open-source language models specifically tailored to improve understanding and generation in Chinese, Indonesian, Malay, and Singlish. The initial released model is built on Llama-3-8B-Base and refined through a meticulously crafted process of continued pre-training and weight merging. Our approach achieves performance improvements across benchmarks in these languages, exceeding the capabilities of the official Llama-3 models. We provide the model checkpoints as a resource to support further research and development in cross-lingual language understanding.

arxiv情報

著者 Xin Huang,Tarun Kumar Vangani,Minh Duc Pham,Xunlong Zou,Bin Wang,Zhengyuan Liu,Ai Ti Aw
発行日 2025-01-16 06:16:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク