On Separate Normalization in Self-supervised Transformers

要約

変圧器の自己教師付きトレーニング方法は、さまざまな領域で顕著なパフォーマンスを実証しています。
マスクされたオートエンコーダー (MAE) などの以前のトランスフォーマー ベースのモデルは、通常、[CLS] シンボルとトークンの両方に単一の正規化層を利用します。
この論文では、トークンと [CLS] シンボルに別々の正規化層を使用して、それらの明確な特性をより適切に捕捉し、下流のタスクのパフォーマンスを向上させる簡単な変更を提案します。
私たちの方法は、両方のトークン タイプに同じ正規化統計を使用することによる潜在的な悪影響を軽減することを目的としています。これは、個々の役割と最適に調整されていない可能性があります。
我々は、別個の正規化層を利用することにより、[CLS] 埋め込みがグローバルなコンテキスト情報をより適切にエンコードでき、異方性空間内でより均一に分散されることを経験的に示しています。
従来の正規化レイヤーを 2 つの別々のレイヤーに置き換えると、画像、自然言語、グラフの各ドメインで平均 2.7% のパフォーマンスの向上が観察されました。

要約(オリジナル)

Self-supervised training methods for transformers have demonstrated remarkable performance across various domains. Previous transformer-based models, such as masked autoencoders (MAE), typically utilize a single normalization layer for both the [CLS] symbol and the tokens. We propose in this paper a simple modification that employs separate normalization layers for the tokens and the [CLS] symbol to better capture their distinct characteristics and enhance downstream task performance. Our method aims to alleviate the potential negative effects of using the same normalization statistics for both token types, which may not be optimally aligned with their individual roles. We empirically show that by utilizing a separate normalization layer, the [CLS] embeddings can better encode the global contextual information and are distributed more uniformly in its anisotropic space. When replacing the conventional normalization layer with the two separate layers, we observe an average 2.7% performance improvement over the image, natural language, and graph domains.

arxiv情報

著者 Xiaohui Chen,Yinkai Wang,Yuanqi Du,Soha Hassoun,Li-Ping Liu
発行日 2023-09-22 15:30:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク