要約
一対のドット積自己アテンションは、言語と視覚の様々な応用において最先端の性能を達成する変換器の成功の鍵である。このドット積自己アテンションは、ユークリッド距離を用いて入力トークン間のアテンション重みを計算するため、モデルが表現崩壊を起こしやすく、また汚染されたサンプルに対して脆弱である。本論文では、マハラノビス距離を用いて注意の重みを計算し、文脈との関連性が高い方向に特徴空間を拡張することを提案する。特に、文脈的に重要な方向に横たわるトークンの注目重みを増加させるために、各クエリの周りに超楕円近傍を定義する。この新しい注意を楕円形注意と呼ぶ。楕円アテンションは2つの利点を提供する:1) 表現の破綻を低減すること、2) 楕円形アテンションは情報量の少ない特徴量に注目するのではなく、文脈に関連した情報により多くの注意を払うため、モデルの頑健性を高めること、である。我々は、異なるデータモダリティにわたる物体分類、画像セグメンテーション、言語モデリングを含む様々な実用的タスクにおいて、ベースラインのドット積アテンションや最先端のアテンション手法に対する楕円アテンションの利点を実証的に示す。
要約(オリジナル)
Pairwise dot-product self-attention is key to the success of transformers that achieve state-of-the-art performance across a variety of applications in language and vision. This dot-product self-attention computes attention weights among the input tokens using Euclidean distance, which makes the model prone to representation collapse and vulnerable to contaminated samples. In this paper, we propose using a Mahalanobis distance metric for computing the attention weights to stretch the underlying feature space in directions of high contextual relevance. In particular, we define a hyper-ellipsoidal neighborhood around each query to increase the attention weights of the tokens lying in the contextually important directions. We term this novel class of attention Elliptical Attention. Our Elliptical Attention provides two benefits: 1) reducing representation collapse and 2) enhancing the model’s robustness as Elliptical Attention pays more attention to contextually relevant information rather than focusing on some small subset of informative features. We empirically demonstrate the advantages of Elliptical Attention over the baseline dot-product attention and state-of-the-art attention methods on various practical tasks, including object classification, image segmentation, and language modeling across different data modalities.
arxiv情報
著者 | Stefan K. Nielsen,Laziz U. Abdullaev,Rachel S. Y. Teo,Tan M. Nguyen |
発行日 | 2024-10-31 21:21:26+00:00 |
arxivサイト | arxiv_id(pdf) |