要約
マレーシアのコンテキストでゼロから事前トレーニングされた大規模言語モデルのギャップに対処するため、349 GB の相当なデータセットで 11 億、30 億、50 億のパラメーターを使用してモデルをトレーニングしました。これは、事前トレーニングされたバイト ペア エンコーディング (BPE) トークナイザーに基づく 900 億トークンに相当します。
ひとつの時代のために。
MaLLaM は、マレー語での自然言語理解と生成タスクの強化に貢献します。
900 億トークンという小規模なデータセットでトレーニングされていますが、命令調整された MaLLaM モデルは競争力のあるパフォーマンスを発揮します。
ChatGPT3.5 やマレーシア語ミストラルと比較すると、MaLLaM の命令調整モデルは顕著な熟練度を示しており、マレーシア語のニュアンスを捉えて理解する際のアプローチの有効性が強調されています。
MaLLaM モデルは、マレーシアの文脈に基づいた包括的な言語表現を提供し、この分野に大きく貢献しています。
この取り組みは、マレーシアに存在する言語のニュアンスに特有の自然言語の理解と生成タスクを強化するための道を開くことを目的としています。
トレーニング方法、データセットの構成、およびマレー語のコンテキスト内で大規模な言語モデルの機能を向上させる際の MaLLaM の潜在的な影響について説明します。
https://huggingface.co/collections/mesolitica/mallam-6577b59d1e0b436ae75f930f でリリースされた全モデル
要約(オリジナル)
Addressing the gap in Large Language Model pretrained from scratch with Malaysian context, We trained models with 1.1 billion, 3 billion, and 5 billion parameters on a substantial 349GB dataset, equivalent to 90 billion tokens based on our pretrained Byte Pair Encoding (BPE) tokenizer for a single epoch. MaLLaM contributes to enhanced natural language understanding and generation tasks in the Malay language. Although trained on a smaller dataset of 90 billion tokens, our instruction-tuned MaLLaM models perform competitively. When compared to ChatGPT3.5 and Malaysian Mistral, MaLLaM’s instruction-tuned models demonstrate notable proficiency, underscoring the effectiveness of our approach in capturing and understanding the nuances of the Malaysian language. MaLLaM models mark a significant contribution to the field, providing comprehensive language representations grounded in Malaysian context. This endeavor aims to pave the way for enhanced natural language understanding and generation tasks specific to the linguistic nuances present in Malaysia. We discuss the training methodology, dataset composition, and the potential impact of MaLLaM in advancing the capabilities of large language models within the context of the Malay language. All models released at https://huggingface.co/collections/mesolitica/mallam-6577b59d1e0b436ae75f930f
arxiv情報
著者 | Husein Zolkepli,Aisyah Razak,Kamarul Adha,Ariff Nazhan |
発行日 | 2024-01-26 06:56:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google