Distilling Efficient Language-Specific Models for Cross-Lingual Transfer

要約

mBERTやXLM-Rなどの大規模多言語変換器(MMT)は、言語横断的な転移学習に広く利用されている。これらは数百の言語を表現できるように事前に学習されていますが、自然言語処理システムのエンドユーザーは、しばしば個々の言語にしか興味がありません。このような用途では、MMTの言語カバー率は、モデルサイズ、推論時間、エネルギー、ハードウェアコストの観点から、不必要に高価な導入となる。そこで、我々は、言語横断的な転送のための元のMMTの能力を維持したまま、MMTから圧縮された言語固有のモデルを抽出することを提案する。これは、MMTをバイリンガルで蒸留すること、すなわち、対象となるソース言語とターゲット言語のデータのみを使用することで達成される。具体的には、BiStilと呼ばれる2段階の蒸留アプローチを使用します:(i)第一段階では、MMTから一般的なバイリンガルモデルを抽出し、(ii)第二段階では、タスクに特化したMMTの変種を「教師」として、バイリンガル「学生」モデルを疎に微調整する。この蒸留技術を、多くの標準的なクロスリンガルベンチマークを用いたゼロショットクロスリンガル転送で評価した。その結果、蒸留されたモデルは、大幅に小さく高速であるにもかかわらず、ベースとなるMMTと比較して、ターゲット言語の性能劣化が最小限であることが示されました。さらに、DistilmBERTやMiniLMv2のような多言語蒸留モデルは、言語単位でみても、非常に少ない学習予算で、優れた性能を発揮することがわかった。また、MMTから抽出したバイリンガルモデルが、ゼロから学習したバイリンガルモデルを大きく上回ることも示しています。我々のコードとモデルは https://github.com/AlanAnsell/bistil で入手可能です。

要約(オリジナル)

Massively multilingual Transformers (MMTs), such as mBERT and XLM-R, are widely used for cross-lingual transfer learning. While these are pretrained to represent hundreds of languages, end users of NLP systems are often interested only in individual languages. For such purposes, the MMTs’ language coverage makes them unnecessarily expensive to deploy in terms of model size, inference time, energy, and hardware cost. We thus propose to extract compressed, language-specific models from MMTs which retain the capacity of the original MMTs for cross-lingual transfer. This is achieved by distilling the MMT bilingually, i.e., using data from only the source and target language of interest. Specifically, we use a two-phase distillation approach, termed BiStil: (i) the first phase distils a general bilingual model from the MMT, while (ii) the second, task-specific phase sparsely fine-tunes the bilingual ‘student’ model using a task-tuned variant of the original MMT as its ‘teacher’. We evaluate this distillation technique in zero-shot cross-lingual transfer across a number of standard cross-lingual benchmarks. The key results indicate that the distilled models exhibit minimal degradation in target language performance relative to the base MMT despite being significantly smaller and faster. Furthermore, we find that they outperform multilingually distilled models such as DistilmBERT and MiniLMv2 while having a very modest training budget in comparison, even on a per-language basis. We also show that bilingual models distilled from MMTs greatly outperform bilingual models trained from scratch. Our code and models are available at https://github.com/AlanAnsell/bistil.

arxiv情報

著者 Alan Ansell,Edoardo Maria Ponti,Anna Korhonen,Ivan Vulić
発行日 2023-06-02 17:31:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク