要約
大規模な言語モデルは、さまざまな言語タスクにおいて顕著な習熟度を示し、さまざまな領域にわたる広範な知識を持っています。
彼らは英語で最も優れたパフォーマンスを発揮しますが、他の言語での能力も注目に値します。
対照的に、LLaMa などのオープンソース モデルは主に英語のデータセットでトレーニングされるため、英語以外の言語ではパフォーマンスが低下します。
この論文では、ペルシア語におけるクローズドソースの GPT-3.5-turbo に匹敵するパフォーマンスを実証する、オープンソースのバイリンガル大規模言語モデルである PersianMind を紹介します。
LLaMa2 の語彙を 10,000 のペルシア語トークンで拡張し、約 20 億のペルシア語トークンで構成されるデータセットでトレーニングすることにより、私たちのアプローチがモデルの英語の知識を保持し、転移学習を採用してタスクの知識をある言語から別の言語に伝達することに優れていることを示します。
要約(オリジナル)
Large language models demonstrate remarkable proficiency in various linguistic tasks and have extensive knowledge across various domains. Although they perform best in English, their ability in other languages is notable too. In contrast, open-source models, such as LLaMa, are primarily trained on English datasets, resulting in poor performance in non-English languages. In this paper, we introduce PersianMind, an open-source bilingual large language model which demonstrates comparable performance to closed-source GPT-3.5-turbo in the Persian language. By expanding LLaMa2’s vocabulary with 10,000 Persian tokens and training it on a dataset comprising nearly 2 billion Persian tokens, we show that our approach preserves the model’s English knowledge and employs transfer learning to excel at transferring task knowledge from one language to another.
arxiv情報
著者 | Pedram Rostami,Ali Salemi,Mohammad Javad Dousti |
発行日 | 2024-01-12 09:24:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google