An Efficient Multilingual Language Model Compression through Vocabulary Trimming

要約

多言語言語モデル (LM) は、特に英語以外の言語に対する NLP の強力なツールとなっています。
それにもかかわらず、異なる言語のトークンをカバーする語彙の埋め込み行列がより大きくなるため、多言語 LM のモデル パラメータは依然として大きいままです。
反対に、単一言語の LM は、言語固有の語彙のみを使用してターゲット言語でトレーニングできますが、高品質の LM をゼロから実現するには、多額の予算と信頼できるコーパスの利用可能性が必要です。
この論文では、語彙トリミング (VT) を提案します。これは、語彙から無関係なトークンを削除することで、多言語 LM 語彙をターゲット言語に削減する方法です。
理論上、VT は既存の多言語 LM を圧縮して、多言語 LM でカバーされる任意の言語で単言語 LM を構築できます。
私たちの実験では、VT が元の多言語 LM よりもサイズが小さい (通常、元の語彙サイズの約 50% で十分) 一方で、VT が多言語 LM の元のパフォーマンスを維持できることを示しました。
この評価は、7 つの言語で広く使用されている 4 つの多言語 LM のうち、4 つの NLP タスク (2 つの生成タスクと 2 つの分類タスク) にわたって実行されます。
最後に、この方法論では、特別に再トレーニングする必要なく単言語モデルとして小さいサイズを維持し、潜在的に有害な社会的バイアスを制限することによって、単言語モデルと多言語世界の両方の長所を維持できることを示します。

要約(オリジナル)

Multilingual language model (LM) have become a powerful tool in NLP especially for non-English languages. Nevertheless, model parameters of multilingual LMs remain large due to the larger embedding matrix of the vocabulary covering tokens in different languages. On the contrary, monolingual LMs can be trained in a target language with the language-specific vocabulary only, but this requires a large budget and availability of reliable corpora to achieve a high-quality LM from scratch. In this paper, we propose vocabulary-trimming (VT), a method to reduce a multilingual LM vocabulary to a target language by deleting irrelevant tokens from its vocabulary. In theory, VT can compress any existing multilingual LM to build monolingual LMs in any language covered by the multilingual LM. In our experiments, we show that VT can retain the original performance of the multilingual LM, while being smaller in size (in general around 50% of the original vocabulary size is enough) than the original multilingual LM. The evaluation is performed over four NLP tasks (two generative and two classification tasks) among four widely used multilingual LMs in seven languages. Finally, we show that this methodology can keep the best of both monolingual and multilingual worlds by keeping a small size as monolingual models without the need for specifically retraining them, and even limiting potentially harmful social biases.

arxiv情報

著者 Asahi Ushio,Yi Zhou,Jose Camacho-Collados
発行日 2023-10-12 11:45:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク