Efficiently Adapting Pretrained Language Models To New Languages

要約

最近の大規模言語モデル (LLM) は、通常、英語やその他の高リソース言語によってトレーニング データが占められているため、低リソース言語では次善のパフォーマンスを示します。
さらに、高品質のトレーニング データが不足しているため、低リソース言語のモデルを特にゼロからトレーニングすることは困難です。
事前トレーニングされた LLM を適応させると、新しい言語でのデータの必要性が減り、同時に言語間の転送機能も提供されます。
ただし、新しい言語に無邪気に適応すると、致命的な忘れやトークナイザーの効率の低下につながります。
この研究では、これらの問題に遭遇することなく、既存の事前トレーニング済み LLM を新しい言語に効率的に適応させる方法を研究します。
特に、ターゲット言語から新しいトークンを追加することでトークナイザーのエンコード効率を向上させ、忘れを軽減するためのデータ混合レシピを研究します。
英語 LLM をハンガリー語とタイ語に適応させる実験では、私たちのレシピが、英語に対する後退を最小限に抑えながら、ターゲット言語でオープンソース モデルよりも優れたパフォーマンスを達成できることがわかりました。

要約(オリジナル)

Recent large language models (LLM) exhibit sub-optimal performance on low-resource languages, as the training data of these models is usually dominated by English and other high-resource languages. Furthermore, it is challenging to train models for low-resource languages, especially from scratch, due to a lack of high quality training data. Adapting pretrained LLMs reduces the need for data in the new language while also providing cross lingual transfer capabilities. However, naively adapting to new languages leads to catastrophic forgetting and poor tokenizer efficiency. In this work, we study how to efficiently adapt any existing pretrained LLM to a new language without running into these issues. In particular, we improve the encoding efficiency of the tokenizer by adding new tokens from the target language and study the data mixing recipe to mitigate forgetting. Our experiments on adapting an English LLM to Hungarian and Thai show that our recipe can reach better performance than open source models on the target language, with minimal regressions on English.

arxiv情報

著者 Zoltan Csaki,Pian Pawakapan,Urmish Thakker,Qiantong Xu
発行日 2023-11-09 20:59:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク