要約
ヘブライ語などの低リソース言語で大規模言語モデル (LLM) をトレーニングすると、特有の課題が生じます。
このペーパーでは、ヘブライ語と英語の両方で約 2,000 億トークンの実質的なコーパスでトレーニングされた、Mistral モデルから派生した 2 つの LLM である DictaLM2.0 と DictaLM2.0-Instruct を紹介します。
事前トレーニングされたモデルを新しい言語に適応させるには、モデルを最初からトレーニングしたり、英語などのリソースが豊富な言語で既存のモデルをさらにトレーニングしたりすることとは大きく異なる特殊なテクニックが必要になります。
ヘブライ語の言語特性への効果的な学習と適応を促進する、これらの新しいトレーニング方法論の概要を説明します。
さらに、包括的な命令データセットに基づいて DictaLM2.0-Instruct を微調整し、タスク固有の命令のパフォーマンスを向上させました。
モデルを厳密に評価するために、ヘブライ語 LLM 評価用の新しいベンチマーク スイートを導入し、質問応答、感情分析、Winograd スキーマ チャレンジ、翻訳、要約などのさまざまなタスクをカバーします。
私たちの研究は、低リソース言語で LLM をトレーニングする複雑さに対処するだけでなく、他の LLM を英語以外のさまざまな言語に適応させるために活用できるフレームワークを提案し、多言語 NLP のより広範な分野に貢献します。
要約(オリジナル)
Training large language models (LLMs) in low-resource languages such as Hebrew poses unique challenges. In this paper, we introduce DictaLM2.0 and DictaLM2.0-Instruct, two LLMs derived from the Mistral model, trained on a substantial corpus of approximately 200 billion tokens in both Hebrew and English. Adapting a pre-trained model to a new language involves specialized techniques that differ significantly from training a model from scratch or further training existing models on well-resourced languages such as English. We outline these novel training methodologies, which facilitate effective learning and adaptation to the linguistic properties of Hebrew. Additionally, we fine-tuned DictaLM2.0-Instruct on a comprehensive instruct dataset to enhance its performance on task-specific instructions. To rigorously evaluate our models, we introduce a new benchmark suite for Hebrew LLM evaluation, covering a diverse set of tasks including Question Answering, Sentiment Analysis, Winograd Schema Challenge, Translation, and Summarization. Our work not only addresses the intricacies of training LLMs in low-resource languages but also proposes a framework that can be leveraged for adapting other LLMs to various non-English languages, contributing to the broader field of multilingual NLP.
arxiv情報
著者 | Shaltiel Shmidman,Avi Shmidman,Amir DN Cohen,Moshe Koppel |
発行日 | 2024-07-09 17:51:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google