An Empirical Comparison of Vocabulary Expansion and Initialization Approaches for Language Models

要約

言語モデル (LM) は、英語の自然言語処理タスクでは優れていますが、他のほとんどの言語ではパフォーマンスが低下します。
この問題は通常、これらの言語に合わせてこれらのモデルを継続的に事前トレーニングし、微調整することで解決されます。
このプロセスにおける重要な問題は、元のモデルのトークナイザーでカバーされる語彙が限られているため、新しい言語の表現が不十分になり、トークナイザーの拡張が必要になることです。
新しい語彙項目に対応する埋め込みの初期化には、さらなる課題が生じます。
現在の戦略は、言語を越えた埋め込みを必要とし、強力なベースラインとの比較だけでなく、強固な理論的基盤も欠いています。
この論文では、まず既存のエンベディングの凸包内での初期化が適切な初期化であることを理論的に確立し、その後、言語をまたがるエンベディングを必要としない、新規だが単純なアプローチである Constrained Word2Vec (CW2V) を使用します。
私たちの研究では、4 つの言語と 5 つのタスクにわたって RoBERTa と LLaMA 2 を拡張するためのさまざまな初期化方法を評価しました。
結果は、CW2V がより高度な技術と同等かそれ以上に優れたパフォーマンスを発揮することを示しています。
さらに、多変量初期化などのより単純なアプローチは、これらの高度な方法と同等のパフォーマンスを発揮し、より単純な初期化方法でも効率的な大規模な多言語継続事前トレーニングを達成できることを示しています。

要約(オリジナル)

Language Models (LMs) excel in natural language processing tasks for English but show reduced performance in most other languages. This problem is commonly tackled by continually pre-training and fine-tuning these models for said languages. A significant issue in this process is the limited vocabulary coverage in the original model’s tokenizer, leading to inadequate representation of new languages and necessitating an expansion of the tokenizer. The initialization of the embeddings corresponding to new vocabulary items presents a further challenge. Current strategies require cross-lingual embeddings and lack a solid theoretical foundation as well as comparisons with strong baselines. In this paper, we first establish theoretically that initializing within the convex hull of existing embeddings is a good initialization, followed by a novel but simple approach, Constrained Word2Vec (CW2V), which does not require cross-lingual embeddings. Our study evaluates different initialization methods for expanding RoBERTa and LLaMA 2 across four languages and five tasks. The results show that CW2V performs equally well or even better than more advanced techniques. Additionally, simpler approaches like multivariate initialization perform on par with these advanced methods indicating that efficient large-scale multilingual continued pretraining can be achieved even with simpler initialization methods.

arxiv情報

著者 Nandini Mundra,Aditya Nanda Kishore,Raj Dabre,Ratish Puduppully,Anoop Kunchukuttan,Mitesh M. Khapra
発行日 2024-07-08 11:38:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク