Revisiting Non-Autoregressive Translation at Scale

要約

実世界のシステムにおいて、スケーリングは自己回帰翻訳(AT)の翻訳品質を向上させるために重要であるが、非自己回帰翻訳(NAT)については十分に研究されていない。本研究では、スケーリングがNATの動作に与える影響を系統的に研究することで、このギャップを埋めることを目的としています。2つの先進的なNATモデルについて6つのWMTベンチマークを用いた広範な実験により、スケーリングがNATモデルの一般的に言われる弱点を緩和し、より優れた翻訳性能をもたらすことが示されました。デコード速度に対するスケーリングの副作用を軽減するために、NATエンコーダーとデコーダーが翻訳性能に与える影響を実証的に調査しました。大規模なWMT20 En-Deでの実験結果から、非対称アーキテクチャ(例えば、大きなエンコーダーと小さなデコーダー)は、標準的なNATモデルによるデコード速度の優位性を維持しつつ、スケーリングモデルと同等の性能を達成できることが示された。このため、スケーリングされたNATモデルをスケーリングされたデータセットで検証することにより、新たなベンチマークを確立し、今後の研究のための強力なベースラインと見なすことができる。コードとシステムの出力は、https://github.com/DeepLearnXMU/Scaling4NAT で公開する。

要約(オリジナル)

In real-world systems, scaling has been critical for improving the translation quality in autoregressive translation (AT), which however has not been well studied for non-autoregressive translation (NAT). In this work, we bridge the gap by systematically studying the impact of scaling on NAT behaviors. Extensive experiments on six WMT benchmarks over two advanced NAT models show that scaling can alleviate the commonly-cited weaknesses of NAT models, resulting in better translation performance. To reduce the side-effect of scaling on decoding speed, we empirically investigate the impact of NAT encoder and decoder on the translation performance. Experimental results on the large-scale WMT20 En-De show that the asymmetric architecture (e.g. bigger encoder and smaller decoder) can achieve comparable performance with the scaling model, while maintaining the superiority of decoding speed with standard NAT models. To this end, we establish a new benchmark by validating scaled NAT models on the scaled dataset, which can be regarded as a strong baseline for future works. We release code and system outputs at https://github.com/DeepLearnXMU/Scaling4NAT.

arxiv情報

著者 Zhihao Wang,Longyue Wang,Jinsong Su,Junfeng Yao,Zhaopeng Tu
発行日 2023-06-02 13:58:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク