LlamaTurk: Adapting Open-Source Generative Large Language Models for Low-Resource Language

要約

英語が主流の生成大規模言語モデルの進歩にも関わらず、グローバルなアクセシビリティを強化するには、低リソース言語のさらなる開発が必要です。
これらの言語を表現するための主な方法は、単言語および多言語の事前トレーニングです。
単言語の事前トレーニングはハードウェア要件により高価であり、多言語モデルのパフォーマンスは言語間で不均一になることがよくあります。
この研究では、主に英語でトレーニングされた大規模な言語モデルをリソースの少ない言語に適応させることで、代替ソリューションを探ります。
私たちは、継続的なトレーニング、指導の微調整、タスク固有の微調整、語彙の拡張など、さまざまな戦略を評価します。
その結果、困惑スコアに反映されるように、継続的なトレーニングにより言語理解が向上し、タスク固有の調整により一般に下流タスクのパフォーマンスが向上することが示されました。
ただし、語彙を増やしても大きなメリットはありません。
さらに、大規模なモデルは数回のチューニングでタスクのパフォーマンスを向上させますが、多言語モデルは適応すると単言語モデルよりもパフォーマンスが低下します。

要約(オリジナル)

Despite advancements in English-dominant generative large language models, further development is needed for low-resource languages to enhance global accessibility. The primary methods for representing these languages are monolingual and multilingual pretraining. Monolingual pretraining is expensive due to hardware requirements, and multilingual models often have uneven performance across languages. This study explores an alternative solution by adapting large language models, primarily trained on English, to low-resource languages. We assess various strategies, including continual training, instruction fine-tuning, task-specific fine-tuning, and vocabulary extension. The results show that continual training improves language comprehension, as reflected in perplexity scores, and task-specific tuning generally enhances performance of downstream tasks. However, extending the vocabulary shows no substantial benefits. Additionally, while larger models improve task performance with few-shot tuning, multilingual models perform worse than their monolingual counterparts when adapted.

arxiv情報

著者 Cagri Toraman
発行日 2024-05-13 13:41:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク