VBART: The Turkish LLM

要約

VBARTは、大規模なコーパスを用いてゼロから事前学習された、トルコ初のsequence-to-sequence大規模言語モデル(LLM)です。VBARTは、BARTとmBARTモデルの優れたアイデアを活用したコンパクトなLLMであり、LargeとXLargeの2つのサイズがある。ファインチューニングされたVBARTモデルは、抽象的なテキスト要約、タイトル生成、テキスト言い換え、質問応答、質問生成タスクにおいて、先行する最先端の結果を上回る。将来のテキスト生成タスクやデータセットのための微調整を可能にし、トルコの自然言語処理(NLP)研究に新たな道を切り開く。我々の研究は、トルコ語用に事前に訓練されたLLMが、最大3倍の多言語モデルを凌駕し、既存の結果を改善し、訓練と推論のための効率的なモデルを提供することを示している。さらに、我々の単言語トークナイザーは、OpenAIの多言語トークナイザーよりも7倍効率的であることを示す。最後に、既存の事前訓練されたLLMを拡大する方法を紹介し、チンチラ・スケーリングの法則と配列対配列のマスクされた言語モデルとの関連性を問う。我々の微調整されたモデル、トークナイザー、クリーンアップされた135GBのウェブコーパスはhuggingface.co/vngrs-aiで公開されている。

要約(オリジナル)

We present VBART, the first Turkish sequence-to-sequence Large Language Models (LLMs) pre-trained on a large corpus from scratch. VBART are compact LLMs based on good ideas leveraged from BART and mBART models and come in two sizes, Large and XLarge. Fine-tuned VBART models surpass the prior state-of-the-art results in abstractive text summarization, title generation, text paraphrasing, question answering and question generation tasks. They allow fine-tuning for future text generation tasks and datasets, carving a new path for Turkish Natural Language Processing (NLP) research. Our work shows that having a pre-trained LLM for Turkish outperforms up to 3x multilingual models, improving existing results and providing efficient models for training and inference. Moreover, we show that our monolingual tokenizer is 7x more efficient than OpenAI’s multilingual tokenizer. Last but not least, we introduce a method to enlarge an existing pre-trained LLM and question the relevancy of Chinchilla Scaling Law to sequence-to-sequence masked language models. Our fine-tuned models, tokenizer and cleaned web corpus of 135 GB are publicly available at huggingface.co/vngrs-ai.

arxiv情報

著者 Meliksah Turker,Mehmet Erdi Ari,Aydin Han
発行日 2024-03-02 20:40:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク