You Can Have Your Data and Balance It Too: Towards Balanced and Efficient Multilingual Models

要約

多言語モデルは、低リソース言語への言語間転送に広く使用されています。
ただし、これらの言語のパフォーマンスは、事前トレーニング データで過小評価されているために妨げられます。
この問題を軽減するために、教師と生徒の知識の蒸留に基づいた新しい多言語トレーニング手法を提案します。
この設定では、言語に合わせて最適化された単一言語教師モデルを利用します。
私たちはこれらの教師とバランスの取れた (サブサンプリングされた) データを使用して、教師の知識を 1 人の多言語を話す生徒に抽出します。
私たちの方法は、低リソース言語での標準的なトレーニング方法よりも優れたパフォーマンスを発揮し、同じ量のデータを使用しながら高リソース言語でのパフォーマンスを再トレーニングします。
私たちのアプローチを広く適用すれば、NLP システムにおける低リソース言語の表現を増やすことができます。

要約(オリジナル)

Multilingual models have been widely used for cross-lingual transfer to low-resource languages. However, the performance on these languages is hindered by their underrepresentation in the pretraining data. To alleviate this problem, we propose a novel multilingual training technique based on teacher-student knowledge distillation. In this setting, we utilize monolingual teacher models optimized for their language. We use those teachers along with balanced (sub-sampled) data to distill the teachers’ knowledge into a single multilingual student. Our method outperforms standard training methods in low-resource languages and retrains performance on high-resource languages while using the same amount of data. If applied widely, our approach can increase the representation of low-resource languages in NLP systems.

arxiv情報

著者 Tomasz Limisiewicz,Dan Malkin,Gabriel Stanovsky
発行日 2023-05-26 14:31:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク