Leveraging Diverse Modeling Contexts with Collaborating Learning for Neural Machine Translation

要約

自己回帰 (AR) モデルと非自己回帰 (NAR) モデルは、ニューラル機械翻訳 (NMT) の 2 種類の生成モデルです。
AR モデルは単語ごとにトークンを予測し、実際の翻訳の分布を効果的に把握できます。
NAR モデルは、双方向のコンテキスト情報を抽出することでトークンを予測し、推論速度を向上させることができますが、パフォーマンスの低下が発生します。
以前の研究では、AR モデルを利用して、トレーニング データの複雑さを軽減したり、NAR モデルによってグローバル情報を AR モデルに組み込んだりすることで、NAR モデルを強化しました。
ただし、調査されたこれらの方法は、単一タイプのモデルのコンテキスト情報のみを利用しており、異なるタイプのモデルによって提供されるコンテキスト情報の多様性を無視しています。
この論文では、AR および NAR モデルが教師と生徒ではなく協力者として扱われる、新しい汎用協調学習方法 DCMCL を提案します。
双方向のコンテキスト情報を階層的に活用するために、AR モデルと NAR モデルの間でトークンレベルの相互学習とシーケンスレベルの対照学習が採用されています。
広く使用されている 4 つのベンチマークに関する広範な実験により、提案された DCMCL 手法は、それぞれ最大 1.38 および 2.98 の BLEU スコアで AR モデルと NAR モデルの両方を同時に改善でき、両方の AR で最大 0.97 の BLEU スコアで現在の最適統合モデルを上回るパフォーマンスを発揮できることが示されています。
そしてNARデコード。

要約(オリジナル)

Autoregressive (AR) and Non-autoregressive (NAR) models are two types of generative models for Neural Machine Translation (NMT). AR models predict tokens in a word-by-word manner and can effectively capture the distribution of real translations. NAR models predict tokens by extracting bidirectional contextual information which can improve the inference speed but they suffer from performance degradation. Previous works utilized AR models to enhance NAR models by reducing the training data’s complexity or incorporating the global information into AR models by virtue of NAR models. However, those investigated methods only take advantage of the contextual information of a single type of model while neglecting the diversity in the contextual information that can be provided by different types of models. In this paper, we propose a novel generic collaborative learning method, DCMCL, where AR and NAR models are treated as collaborators instead of teachers and students. To hierarchically leverage the bilateral contextual information, token-level mutual learning and sequence-level contrastive learning are adopted between AR and NAR models. Extensive experiments on four widely used benchmarks show that the proposed DCMCL method can simultaneously improve both AR and NAR models with up to 1.38 and 2.98 BLEU scores respectively, and can also outperform the current best-unified model with up to 0.97 BLEU scores for both AR and NAR decoding.

arxiv情報

著者 Yusheng Liao,Yanfeng Wang,Yu Wang
発行日 2024-02-28 15:55:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク