Improving Non-autoregressive Translation Quality with Pretrained Language Model, Embedding Distillation and Upsampling Strategy for CTC

要約

非自己回帰アプローチは、翻訳モデル、特にワンパス順方向で出力を生成するモデルの推論速度を向上させることを目的としています。
ただし、これらのアプローチでは、自己回帰モデルと比較して翻訳品質が大幅に低下することがよくあります。
このペーパーでは、推論速度の大幅な高速化を維持しながら、非自己回帰変換 (NAT) モデルの翻訳品質を向上させる一連の革新的な手法を紹介します。
NAT モデルを効果的にトレーニングするために、CTC 損失を使用して事前トレーニング済み多言語モデル (PMLM) を微調整することを提案します。
さらに、トークン複製の代わりにアップサンプリングに MASK 挿入スキームを採用し、パフォーマンスをさらに向上させるための埋め込み蒸留手法を提示します。
私たちの実験では、WMT’14 DE$\leftrightarrow$EN、WMT’16 RO$\leftrightarrow$EN、IWSLT’14 DE$ を含む複数のデータセットで、モデルはベースライン自己回帰モデル (Transformer \textit{base}) よりも優れたパフォーマンスを示しました。
\leftrightarrow$EN。
特に、トレーニング中に蒸留データを使用しなくても、私たちのモデルは IWSLT’14 En$\leftrightarrow$De および WMT’16 En$\leftrightarrow$Ro データセットのベースライン自己回帰モデルよりも優れたパフォーマンスを達成しています。
IWSLT’14 DE$\rightarrow$EN データセットで、私たちのモデルが 39.59 という素晴らしい BLEU スコアを達成し、新たな最先端のパフォーマンスを確立したことは強調する価値があります。
さらに、私たちのモデルは自己回帰モデルと比較して 16.35 倍という顕著な速度向上を示しています。

要約(オリジナル)

Non-autoregressive approaches aim to improve the inference speed of translation models, particularly those that generate output in a one-pass forward manner. However, these approaches often suffer from a significant drop in translation quality compared to autoregressive models. This paper introduces a series of innovative techniques to enhance the translation quality of Non-Autoregressive Translation (NAT) models while maintaining a substantial acceleration in inference speed. We propose fine-tuning Pretrained Multilingual Language Models (PMLMs) with the CTC loss to train NAT models effectively. Furthermore, we adopt the MASK insertion scheme for up-sampling instead of token duplication, and we present an embedding distillation method to further enhance performance. In our experiments, our model outperforms the baseline autoregressive model (Transformer \textit{base}) on multiple datasets, including WMT’14 DE$\leftrightarrow$EN, WMT’16 RO$\leftrightarrow$EN, and IWSLT’14 DE$\leftrightarrow$EN. Notably, our model achieves better performance than the baseline autoregressive model on the IWSLT’14 En$\leftrightarrow$De and WMT’16 En$\leftrightarrow$Ro datasets, even without using distillation data during training. It is worth highlighting that on the IWSLT’14 DE$\rightarrow$EN dataset, our model achieves an impressive BLEU score of 39.59, setting a new state-of-the-art performance. Additionally, our model exhibits a remarkable speed improvement of 16.35 times compared to the autoregressive model.

arxiv情報

著者 Shen-sian Syu,Juncheng Xie,Hung-yi Lee
発行日 2023-08-31 03:14:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク