FOCUS: Effective Embedding Initialization for Monolingual Specialization of Multilingual Models

要約

高リソース言語で事前トレーニングされたモデルの重みをウォーム スタートとして使用すると、他の言語、特に低リソース言語の高品質な言語モデルを取得するためのデータと計算の必要性を減らすことができます。
ただし、ターゲット言語に特化した新しいトークナイザーを使用したい場合、ソース モデルの埋め込み行列を転送することはできません。
この論文では、ソース モデルの埋め込み行列の情報に基づいて、新しいトークナイザー用に埋め込み行列を効果的に初期化する新しい埋め込み初期化方法である FOCUS – Fast Overlapping Token Combinations using Sparsemax を提案します。
FOCUS は、新しく追加されたトークンを、ソース語彙とターゲット語彙の重複部分にあるトークンの組み合わせとして表します。
重複するトークンは、補助静的トークン埋め込み空間内の意味的類似性に基づいて選択されます。
私たちは多言語 XLM-R をソース モデルとして使用することに研究を集中しており、FOCUS が言語モデリングおよび一連の下流タスク (NLI、QA、NER) におけるランダム初期化や以前の研究よりも優れていることを経験的に示しています。

要約(オリジナル)

Using model weights pretrained on a high-resource language as a warm start can reduce the need for data and compute to obtain high-quality language models for other, especially low-resource, languages. However, if we want to use a new tokenizer specialized for the target language, we cannot transfer the source model’s embedding matrix. In this paper, we propose FOCUS – Fast Overlapping Token Combinations Using Sparsemax, a novel embedding initialization method that initializes the embedding matrix effectively for a new tokenizer based on information in the source model’s embedding matrix. FOCUS represents newly added tokens as combinations of tokens in the overlap of the source and target vocabularies. The overlapping tokens are selected based on semantic similarity in an auxiliary static token embedding space. We focus our study on using the multilingual XLM-R as a source model and empirically show that FOCUS outperforms random initialization and previous work in language modeling and on a range of downstream tasks (NLI, QA, and NER).

arxiv情報

著者 Konstantin Dobler,Gerard de Melo
発行日 2023-11-06 17:47:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク