Mitigating Over-smoothing in Transformers via Regularized Nonlocal Functionals

要約

変換器は、自然言語処理やコンピュータビジョンの幅広い応用において目覚ましい成功を収めている。しかし、深層変換器モデルの表現能力は、モデルの深度が大きくなるとトークン表現が同一になってしまう過平滑化の問題により劣化する。本研究では、変換器の自己注意層が、滑らかさを促進する関数を最小化することで、トークンの均一化を引き起こすことを示す。そして、トークンの忠実度を保つために、自己注意からの滑らかな出力トークンと入力トークンとの差のノルムにペナルティを与える新しい正則化器を提案する。得られた正則化エネルギー汎関数を最小化することで、過平滑化問題を緩和できる新しい変換モデルクラスである、正則化非局所汎関数付きニューラル変換器(NeuTRENO)を導出する。オブジェクト分類、画像セグメンテーション、言語モデリングを含む様々な実用的なタスクにおいて、トークン表現の過平滑化を軽減するNeuTRENOの優位性を、ベースライン変換器や最先端の手法に対して実証的に示す。

要約(オリジナル)

Transformers have achieved remarkable success in a wide range of natural language processing and computer vision applications. However, the representation capacity of a deep transformer model is degraded due to the over-smoothing issue in which the token representations become identical when the model’s depth grows. In this work, we show that self-attention layers in transformers minimize a functional which promotes smoothness, thereby causing token uniformity. We then propose a novel regularizer that penalizes the norm of the difference between the smooth output tokens from self-attention and the input tokens to preserve the fidelity of the tokens. Minimizing the resulting regularized energy functional, we derive the Neural Transformer with a Regularized Nonlocal Functional (NeuTRENO), a novel class of transformer models that can mitigate the over-smoothing issue. We empirically demonstrate the advantages of NeuTRENO over the baseline transformers and state-of-the-art methods in reducing the over-smoothing of token representations on various practical tasks, including object classification, image segmentation, and language modeling.

arxiv情報

著者 Tam Nguyen,Tan M. Nguyen,Richard G. Baraniuk
発行日 2023-12-01 17:52:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク