E2S2: Encoding-Enhanced Sequence-to-Sequence Pretraining for Language Understanding and Generation

要約

シーケンスツーシーケンス (seq2seq) 学習は、大規模な事前トレーニング言語モデルで一般的な方法です。
ただし、従来の seq2seq 事前トレーニング モデルは一般に、デコーダ側の再構成目的に焦点を当てており、エンコーダ側の監視の効果を無視しているため、次善のパフォーマンスにつながる可能性があると我々は主張しています。
仮説を検証するために、まず seq2seq の事前トレーニング済み言語モデルのエンコーダーとデコーダーの機能を経験的に研究し、下流のパフォーマンスとニューロンの活性化に関して、エンコーダーがデコーダーよりも重要ではあるが活用されていない役割を担っていることを発見しました。
したがって、我々は、より効率的な自己教師あり情報をエンコーダに統合することによって seq2seq モデルを改善する、エンコード強化された seq2seq 事前トレーニング戦略、つまり E2S2 を提案します。
具体的には、E2S2 は、次の 2 つの側面からエンコーダ側で 2 つの自己教師付き目標を採用します。1) 破損した文を局所的にノイズ除去する (ノイズ除去目標)。
2) より良い文表現をグローバルに学習する (対照的な目的)。
両方の目的の助けを借りて、エンコーダーはノイズ トークンを効果的に区別し、高レベル (つまり、構文的および意味論的) の知識を取得できるため、条件付き生成を正確に達成する seq2seq モデルの能力が強化されます。
E2S2 は、多種多様な下流の自然言語理解および生成タスクにおいて、BART や T5 などの強力なバックボーン モデルのパフォーマンスを大幅に向上させます。
たとえば、BART バックボーンでは、一般言語理解評価 (GLUE) ベンチマークで +1.1% の平均ゲインを達成し、CoNLL2014 データセットで +1.75% の F_0.5 スコア向上を達成しました。
また、言語表現の改善による改善を示す詳細な分析も提供します。
私たちの研究が、seq2seq 言語モデルの事前トレーニングに関する将来の自己監視研究を促進することを願っています。

要約(オリジナル)

Sequence-to-sequence (seq2seq) learning is a popular fashion for large-scale pretraining language models. However, the prior seq2seq pretraining models generally focus on reconstructive objectives on the decoder side and neglect the effect of encoder-side supervision, which we argue may lead to sub-optimal performance. To verify our hypothesis, we first empirically study the functionalities of the encoder and decoder in seq2seq pretrained language models, and find that the encoder takes an important but under-exploitation role than the decoder regarding the downstream performance and neuron activation. Therefore, we propose an encoding-enhanced seq2seq pretraining strategy, namely E2S2, which improves the seq2seq models via integrating more efficient self-supervised information into the encoders. Specifically, E2S2 adopts two self-supervised objectives on the encoder side from two aspects: 1) locally denoising the corrupted sentence (denoising objective); and 2) globally learning better sentence representations (contrastive objective). With the help of both objectives, the encoder can effectively distinguish the noise tokens and capture high-level (i.e., syntactic and semantic) knowledge, thus strengthening the ability of seq2seq model to accurately achieve the conditional generation. On a large diversity of downstream natural language understanding and generation tasks, E2S2 dominantly improves the performance of its powerful backbone models, e.g., BART and T5. For example, upon BART backbone, we achieve +1.1% averaged gain on the general language understanding evaluation (GLUE) benchmark and +1.75% F_0.5 score improvement on CoNLL2014 dataset. We also provide in-depth analyses to show the improvement stems from better linguistic representation. We hope that our work will foster future self-supervision research on seq2seq language model pretraining.

arxiv情報

著者 Qihuang Zhong,Liang Ding,Juhua Liu,Bo Du,Dacheng Tao
発行日 2024-01-09 09:44:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク