Optimizing Non-Autoregressive Transformers with Contrastive Learning

要約

非回帰型変換器(NAT)は、単語を順次予測するのではなく、一度に予測することにより、自己回帰型変換器(AT)の推論待ち時間を短縮することができます。NATは、機械翻訳をはじめ、様々な用途で目覚ましい発展を遂げています。しかし、NATの長年の課題として、マルチモダリティデータ分布の学習があり、これがNATとATの性能差の主因となっている。本論文では、データ分布の代わりにモデル分布からのサンプリングを介して、モダリティ学習の難しさを緩和することを提案する。学習プロセスを安定化させるために対照的な制約を導き出し、この結果得られた目的を最先端のNATアーキテクチャDA-Transformerと統合する。本手法は、機械翻訳、テキスト要約、言い換えの3つのタスクにおいて、5つのベンチマークで検証された。その結果、我々のアプローチは、これまでの非自己回帰型ベースラインを大幅に上回り、全てのベンチマークにおいて、非自己回帰型変換器の新しい最先端結果を確立することができた。

要約(オリジナル)

Non-autoregressive Transformers (NATs) reduce the inference latency of Autoregressive Transformers (ATs) by predicting words all at once rather than in sequential order. They have achieved remarkable progress in machine translation as well as many other applications. However, a long-standing challenge for NATs is the learning of multi-modality data distribution, which is the main cause of the performance gap between NATs and ATs. In this paper, we propose to ease the difficulty of modality learning via sampling from the model distribution instead of the data distribution. We derive contrastive constraints to stabilize the training process and integrate this resulting objective with the state-of-the-art NAT architecture DA-Transformer. Our model \method is examined on 3 different tasks, including machine translation, text summarization, and paraphrasing with 5 benchmarks. Results show that our approach outperforms previous non-autoregressive baselines by a significant margin and establishes new state-of-the-art results for non-autoregressive transformers on all the benchmarks.

arxiv情報

著者 Chenxin An,Jiangtao Feng,Fei Huang,Xipeng Qiu,Lingpeng Kong
発行日 2023-06-02 10:48:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク