Selective Knowledge Distillation for Non-Autoregressive Neural Machine Translation

要約

シーケンスレベルの知識蒸留の恩恵を受けて、非自己回帰変換器(NAT)はニューラル機械翻訳タスクにおいて大きな成功を収めている。しかし、既存の知識蒸留には、教師からNAT学習者へのエラーの伝播といった副作用があり、NATモデルのさらなる改善を制限する可能性があり、既存の研究ではほとんど議論されていない。本論文では、高品質で学習しやすいNATフレンドリーなターゲットを選択するNAT評価器を導入することで、選択的知識蒸留を導入する。さらに、NATの性能を向上させるために、シンプルで効果的な漸進的知識蒸留法を紹介する。複数のWMT言語方向といくつかの代表的なNATモデルを用いた実験の結果、我々のアプローチがNATモデルの学習データの質と複雑さの間の柔軟なトレードオフを実現し、強力な性能を達成できることが示された。さらに分析を進めると、生翻訳のわずか5%を蒸留することで、NATが生データで訓練された対応モデルを約2.4 BLEU上回ることができる。

要約(オリジナル)

Benefiting from the sequence-level knowledge distillation, the Non-Autoregressive Transformer (NAT) achieves great success in neural machine translation tasks. However, existing knowledge distillation has side effects, such as propagating errors from the teacher to NAT students, which may limit further improvements of NAT models and are rarely discussed in existing research. In this paper, we introduce selective knowledge distillation by introducing an NAT evaluator to select NAT-friendly targets that are of high quality and easy to learn. In addition, we introduce a simple yet effective progressive distillation method to boost NAT performance. Experiment results on multiple WMT language directions and several representative NAT models show that our approach can realize a flexible trade-off between the quality and complexity of training data for NAT models, achieving strong performances. Further analysis shows that distilling only 5% of the raw translations can help an NAT outperform its counterpart trained on raw data by about 2.4 BLEU.

arxiv情報

著者 Min Liu,Yu Bao,Chengqi Zhao,Shujian Huang
発行日 2023-08-04 16:19:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク