要約
多言語モデルは、低リソース言語への言語間転送に広く使用されています。
ただし、これらの言語のパフォーマンスは、事前トレーニング データで過小評価されているために妨げられます。
この問題を軽減するために、教師と生徒の知識の蒸留に基づいた新しい多言語トレーニング手法を提案します。
この設定では、言語に合わせて最適化された単一言語教師モデルを利用します。
私たちはこれらの教師とバランスの取れた (サブサンプリングされた) データを使用して、教師の知識を 1 人の多言語を話す生徒に抽出します。
私たちの方法は、低リソース言語での標準的なトレーニング方法よりも優れたパフォーマンスを発揮し、同じ量のデータを使用しながら高リソース言語でのパフォーマンスを再トレーニングします。
私たちのアプローチを広く適用すれば、NLP システムにおける低リソース言語の表現を増やすことができます。
要約(オリジナル)
Multilingual models have been widely used for cross-lingual transfer to low-resource languages. However, the performance on these languages is hindered by their underrepresentation in the pretraining data. To alleviate this problem, we propose a novel multilingual training technique based on teacher-student knowledge distillation. In this setting, we utilize monolingual teacher models optimized for their language. We use those teachers along with balanced (sub-sampled) data to distill the teachers’ knowledge into a single multilingual student. Our method outperforms standard training methods in low-resource languages and retrains performance on high-resource languages while using the same amount of data. If applied widely, our approach can increase the representation of low-resource languages in NLP systems.
arxiv情報
著者 | Tomasz Limisiewicz,Dan Malkin,Gabriel Stanovsky |
発行日 | 2023-05-26 14:31:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google