要約
このペーパーでは、11 億トークンに相当する 32.6 GB のデータセットを使用した、大規模言語モデルである Mistral 7B の事前トレーニングにおける大幅な進歩について説明します。
私たちはコンテキスト長の拡張の影響を調査し、コンテキスト長が 4096 トークンと 32768 トークンのモデルをリリースし、特殊な 16384 コンテキスト長の命令調整モデル (マレーシアン ミストラルと呼ばれる) を使用してパフォーマンスをさらに改良しました。
私たちの実験では、事前トレーニングを継続することの有効性と、コンテキストの長さの延長がミストラル 7B の言語理解能力に及ぼす影響を実証しています。
さらに、16384 コンテキスト長命令で特別に調整されたモデルをリリースし、微妙な言語の複雑さを捉える可能性を示しています。
さらに、私たちの研究は、ChatGPT3.5 や Claude 2 などの著名な言語モデルに対するマレーシア語ミストラルのベンチマークに貢献します。特に命令で微調整した場合、タタバハサ (マレー語文法) テスト セットにおけるマレーシア語ミストラルの優れたパフォーマンスを示す説得力のある結果を提示します。
https://huggingface.co/collections/mesolitica/malaysian-mistral-7b-6528f2ec825f4bba46c1700c でリリースされたすべてのモデル
要約(オリジナル)
In this paper, we present significant advancements in the pretraining of Mistral 7B, a large-scale language model, using a dataset of 32.6 GB, equivalent to 1.1 billion tokens. We explore the impact of extending the context length, releasing models with context lengths of 4096 and 32768 tokens, and further refining performance with a specialized 16384 context length instruction-tuned model, we called it Malaysian Mistral. Our experiments demonstrate the efficacy of continue pretraining and the influence of extended context lengths on Mistral 7B’s language understanding capabilities. Additionally, we release a model specifically tuned with a 16384 context length instruction, showcasing its potential for capturing nuanced language intricacies. Furthermore, our research contributes to the benchmarking of Malaysian Mistral against prominent language models, including ChatGPT3.5 and Claude 2. We present compelling results indicating Malaysian Mistral’s superior performance on Tatabahasa (Malay grammar) test set, particularly when fine-tuned with instructions. All models released at https://huggingface.co/collections/mesolitica/malaysian-mistral-7b-6528f2ec825f4bba46c1700c
arxiv情報
著者 | Husein Zolkepli,Aisyah Razak,Kamarul Adha,Ariff Nazhan |
発行日 | 2024-01-29 07:22:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google