VBART: The Turkish LLM

要約

我々は、大規模なコーパスでゼロから事前トレーニングされた最初のトルコ語の配列間大規模言語モデル (LLM) である VBART を紹介します。
VBART は、BART および mBART モデルから活用された優れたアイデアに基づいたコンパクトな LLM で、Large と XLarge の 2 つのサイズがあります。
微調整された VBART モデルは、抽象的なテキストの要約、タイトルの生成、テキストの言い換え、質問応答、および質問生成タスクにおいて、以前の最先端の結果を上回っています。
これらにより、将来のテキスト生成タスクとデータセットの微調整が可能になり、トルコの自然言語処理 (NLP) 研究に新たな道を切り開くことができます。
私たちの研究では、トルコ語用に事前トレーニングされた LLM が最大 3 倍の多言語モデルよりも優れたパフォーマンスを示し、既存の結果が改善され、トレーニングと推論のための効率的なモデルが提供されることがわかりました。
さらに、単言語トークナイザーは多言語トークナイザーよりも最大 11 倍効率的であることを示しています。
最後に重要なことですが、既存の事前トレーニング済み LLM を拡張し、チンチラのスケーリング則とシーケンスツーシーケンスのマスクされた言語モデルの関連性を疑問視する方法を紹介します。
微調整されたモデル、トークナイザー、およびクリーンアップされた 135 GB の vngrs-web-corpus は、huggingface.co/vngrs-ai で公開されています。

要約(オリジナル)

We present VBART, the first Turkish sequence-to-sequence Large Language Models (LLMs) pre-trained on a large corpus from scratch. VBART are compact LLMs based on good ideas leveraged from BART and mBART models and come in two sizes, Large and XLarge. Fine-tuned VBART models surpass the prior state-of-the-art results in abstractive text summarization, title generation, text paraphrasing, question answering and question generation tasks. They allow fine-tuning for future text generation tasks and datasets, carving a new path for Turkish Natural Language Processing (NLP) research. Our work shows that having a pre-trained LLM for Turkish outperforms up to 3x multilingual models, improving existing results and providing efficient models for training and inference. Moreover, we show that our monolingual tokenizer is up to 11x more efficient than multilingual tokenizers. Last but not least, we introduce a method to enlarge an existing pre-trained LLM and question the relevancy of Chinchilla Scaling Law to sequence-to-sequence masked language models. Our fine-tuned models, tokenizer and cleaned vngrs-web-corpus of 135 GB are publicly available at huggingface.co/vngrs-ai.

arxiv情報

著者 Meliksah Turker,Mehmet Erdi Ari,Aydin Han
発行日 2024-03-14 16:37:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク