Revisiting Non-Autoregressive Translation at Scale

要約

実際のシステムでは、スケーリングは自己回帰翻訳 (AT) の翻訳品質を向上させるために重要ですが、非自己回帰翻訳 (NAT) については十分に研究されていません。
この研究では、NAT の動作に対するスケーリングの影響を体系的に研究することでギャップを埋めます。
2 つの高度な NAT モデルに対する 6 つの WMT ベンチマークに関する広範な実験により、スケーリングによって NAT モデルの一般的に指摘されている弱点が軽減され、その結果、変換パフォーマンスが向上することが示されました。
デコード速度に対するスケーリングの副作用を軽減するために、NAT エンコーダとデコーダが変換パフォーマンスに与える影響を経験的に調査しました。
大規模な WMT20 En-De の実験結果は、非対称アーキテクチャ (例: より大きなエンコーダーとより小さなデコーダー) が、標準 NAT モデルとのデコード速度の優位性を維持しながら、スケーリング モデルと同等のパフォーマンスを達成できることを示しています。
この目的を達成するために、スケーリングされたデータセット上でスケーリングされた NAT モデルを検証することにより、新しいベンチマークを確立します。これは、将来の作業のための強力なベースラインと見なすことができます。
コード、モデル、システム出力は https://github.com/DeepLearnXMU/Scaling4NAT でリリースされます。

要約(オリジナル)

In real-world systems, scaling has been critical for improving the translation quality in autoregressive translation (AT), which however has not been well studied for non-autoregressive translation (NAT). In this work, we bridge the gap by systematically studying the impact of scaling on NAT behaviors. Extensive experiments on six WMT benchmarks over two advanced NAT models show that scaling can alleviate the commonly-cited weaknesses of NAT models, resulting in better translation performance. To reduce the side-effect of scaling on decoding speed, we empirically investigate the impact of NAT encoder and decoder on the translation performance. Experimental results on the large-scale WMT20 En-De show that the asymmetric architecture (e.g. bigger encoder and smaller decoder) can achieve comparable performance with the scaling model, while maintaining the superiority of decoding speed with standard NAT models. To this end, we establish a new benchmark by validating scaled NAT models on the scaled dataset, which can be regarded as a strong baseline for future works. We release code, models and system outputs at https://github.com/DeepLearnXMU/Scaling4NAT.

arxiv情報

著者 Zhihao Wang,Longyue Wang,Jinsong Su,Junfeng Yao,Zhaopeng Tu
発行日 2023-05-25 15:22:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク