要約
この論文では、特にエストニア語に焦点を当てて、事前トレーニングされた大規模言語モデル (LLM) を新しい低リソース言語に適応させるためのコスト効率の高い方法を検討します。
Llama 2 モデルを活用して、言語を超えた指導チューニングと追加の単一言語事前トレーニングを組み合わせた場合の影響を調査します。
私たちの結果は、比較的少量の追加の単言語事前トレーニングとその後の言語をまたがる指導調整によっても、エストニア語の結果が大幅に向上することを示しています。
さらに、高品質の英語指導からエストニア語への言語を超えた知識の伝達を紹介し、その結果、常識的推論と複数ターンの会話能力が向上します。
\textsc{Llammas} という名前の私たちの最良のモデルは、エストニア語用の最初のオープンソース命令追従 LLM を表します。
さらに、エストニア初の一般的なタスク指示データセットである Alpaca-est を公開しています。
これらの貢献は、エストニア語向けのオープンソース LLM 開発の方向への最初の進歩を示しています。
要約(オリジナル)
This paper explores cost-efficient methods to adapt pretrained Large Language Models (LLMs) to new lower-resource languages, with a specific focus on Estonian. Leveraging the Llama 2 model, we investigate the impact of combining cross-lingual instruction-tuning with additional monolingual pretraining. Our results demonstrate that even a relatively small amount of additional monolingual pretraining followed by cross-lingual instruction-tuning significantly enhances results on Estonian. Furthermore, we showcase cross-lingual knowledge transfer from high-quality English instructions to Estonian, resulting in improvements in commonsense reasoning and multi-turn conversation capabilities. Our best model, named \textsc{Llammas}, represents the first open-source instruction-following LLM for Estonian. Additionally, we publish Alpaca-est, the first general task instruction dataset for Estonia. These contributions mark the initial progress in the direction of developing open-source LLMs for Estonian.
arxiv情報
著者 | Hele-Andra Kuulmets,Taido Purason,Agnes Luhtaru,Mark Fishel |
発行日 | 2024-04-05 11:52:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google