DropDim: A Regularization Method for Transformer Networks

要約

タイトル:Transformerネットワークの正則化手法であるDropDim

要約:
– DropDimは、Transformerのキーとなる構成要素である自己注意メカニズムを正則化するための構造化ドロップアウト手法。
– 一般的なドロップアウト手法がランダムにニューロンを除外するのに対し、DropDimは埋め込み次元の一部を削除するため、意味情報が完全に破棄されることがある。
– このため、異なる埋め込み次元間の過剰な共同適応を破壊し、自己注意機能は削除された埋め込み次元の一定数で有意義な特徴をエンコードするように強制されることができる。
– MUST-C英独データセットの広範なタスクにおいて実験を行った結果、DropDimは、モデルの性能を効果的に改善し、過適合を減らし、他の正則化手法と相補的な効果を示した。
– ラベル平滑化と組み合わせると、ASRタスクにおいてWERを19.1%から15.1%に、MTタスクにおいてBLEU値を26.90から28.38に増加させることができる。
– STタスクでは、強力なベースラインと比較して、モデルは22.99のBLEUスコアに達し、1.86のBLEUポイントの増加を示した。

要約(オリジナル)

We introduceDropDim, a structured dropout method designed for regularizing the self-attention mechanism, which is a key component of the transformer. In contrast to the general dropout method, which randomly drops neurons, DropDim drops part of the embedding dimensions. In this way, the semantic information can be completely discarded. Thus, the excessive coadapting between different embedding dimensions can be broken, and the self-attention is forced to encode meaningful featureswith a certain number of embedding dimensions erased. Experiments on a wide range of tasks executed on the MUST-C English-Germany dataset show that DropDim can effectively improve model performance, reduce over-fitting, and show complementary effects with other regularization methods. When combined with label smoothing, the WER can be reduced from 19.1% to 15.1% on the ASR task, and the BLEU value can be increased from26.90 to 28.38 on the MT task. On the ST task, the model can reach a BLEU score of 22.99, an increase by 1.86 BLEU points compared to the strong baseline.

arxiv情報

著者 Hao Zhang,Dan Qu,Keji Shao,Xukui Yang
発行日 2023-04-20 13:54:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.CV パーマリンク