Exploring the Impact of Layer Normalization for Zero-shot Neural Machine Translation

要約

この論文では、レイヤー正規化 (LayerNorm) がゼロショット変換 (ZST) に及ぼす影響を研究します。
ZST に対する最近の取り組みでは、バックボーンとして Transformer アーキテクチャを利用することが多く、レイヤーの入力 (PreNorm) に LayerNorm がデフォルトとして設定されています。
しかし、Xu et al.
(2019) は、PreNorm がトレーニング データを過剰適合させるリスクがあることを明らかにしました。
これに基づいて、PreNorm は教師あり方向に過剰適合する可能性があるため、ZST の一般化可能性が低い可能性があると仮説を立てます。
54 の ZST 方向に対する OPUS、IWSLT、および Europarl データセットでの実験を通じて、残留接続後の LayerNorm の元の Transformer 設定 (PostNorm) が一貫して PreNorm を最大 12.3 BLEU ポイント上回るパフォーマンスを示すことを実証しました。
次に、PreNorm と PostNorm の間のオフターゲット率の違いと構造的変化を分析することで、パフォーマンスの差異を研究します。
この調査では、ZST の LayerNorm 設定を慎重に検討する必要があることが強調されています。

要約(オリジナル)

This paper studies the impact of layer normalization (LayerNorm) on zero-shot translation (ZST). Recent efforts for ZST often utilize the Transformer architecture as the backbone, with LayerNorm at the input of layers (PreNorm) set as the default. However, Xu et al. (2019) has revealed that PreNorm carries the risk of overfitting the training data. Based on this, we hypothesize that PreNorm may overfit supervised directions and thus have low generalizability for ZST. Through experiments on OPUS, IWSLT, and Europarl datasets for 54 ZST directions, we demonstrate that the original Transformer setting of LayerNorm after residual connections (PostNorm) consistently outperforms PreNorm by up to 12.3 BLEU points. We then study the performance disparities by analyzing the differences in off-target rates and structural variations between PreNorm and PostNorm. This study highlights the need for careful consideration of the LayerNorm setting for ZST.

arxiv情報

著者 Zhuoyuan Mao,Raj Dabre,Qianying Liu,Haiyue Song,Chenhui Chu,Sadao Kurohashi
発行日 2023-05-16 09:37:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク