Selective Knowledge Distillation for Non-Autoregressive Neural Machine Translation

要約

タイトル: 非自己回帰ニューラル機械翻訳に対する選択的知識蒸留
要約:
– シーケンスレベルの知識蒸留により、非自己回帰トランスフォーマー(NAT)はニューラル機械翻訳のタスクで大きな成功を収めている。
– しかし、既存の知識蒸留には副作用があり、教師からNATにエラーが伝播することで、NATモデルの改善が制限され、既存の研究ではあまり話題にされていない。
– 本論文では、NAT学生に適した高品質かつ学習しやすいNATフレンドリーターゲットを選択するためにNAT評価者を導入することで、選択的な知識蒸留を導入する。
– さらに、NATパフォーマンスを向上させるために、単純だが効果的なプログレッシブ蒸留方法を導入している。
– 複数のWMT言語方向といくつかの代表的なNATモデルの実験結果から、我々の手法は、NATモデルのトレーニングデータの品質と複雑さの間で柔軟なトレードオフを実現し、強力なパフォーマンスを実現できることを示している。
– さらに分析した結果、生の翻訳のわずか5%のみを蒸留することで、NATは生データでトレーニングされた対応するモデルを約2.4 BLEU上回るパフォーマンスを発揮することができる。

要約(オリジナル)

Benefiting from the sequence-level knowledge distillation, the Non-Autoregressive Transformer (NAT) achieves great success in neural machine translation tasks. However, existing knowledge distillation has side effects, such as propagating errors from the teacher to NAT students, which may limit further improvements of NAT models and are rarely discussed in existing research. In this paper, we introduce selective knowledge distillation by introducing an NAT evaluator to select NAT-friendly targets that are of high quality and easy to learn. In addition, we introduce a simple yet effective progressive distillation method to boost NAT performance. Experiment results on multiple WMT language directions and several representative NAT models show that our approach can realize a flexible trade-off between the quality and complexity of training data for NAT models, achieving strong performances. Further analysis shows that distilling only 5% of the raw translations can help an NAT outperform its counterpart trained on raw data by about 2.4 BLEU.

arxiv情報

著者 Min Liu,Yu Bao,Chengqi Zhao,Shujian Huang
発行日 2023-03-31 09:16:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク