Dissecting Query-Key Interaction in Vision Transformers

要約

ビジョントランスフォーマーにおける自己注意は、オブジェクトの意味的に類似した特徴に対応する可能性のある同様の埋め込みを持つ他のトークンにトークンが注意を向ける知覚的なグループ化を実行すると考えられています。
ただし、コンテキスト情報を提供することで、異なるトークンに注目することが有益になる場合があります。
対話行列 (つまり ${\textbf{W}_q}^\top\textbf{W}_k$) の特異値分解によってクエリキーの対話を分析することを提案します。
多くの ViT、特に分類トレーニング目標を持つ ViT では、初期の層は類似のトークンにより多くの注意を向ける一方、後期の層は異なるトークンへの注意の増加を示し、それぞれ知覚的なグループ化と文脈化に対応する証拠を提供することがわかりました。
特異ベクトルで表される特徴間の相互作用の多くは、関連するオブジェクト間、オブジェクトの部分間、または前景と背景の間の注意など、解釈可能かつ意味論的です。
これは、アテンション メカニズムの解釈に関する新しい視点を提供し、画像処理時にトランスフォーマー モデルがコンテキストと顕著な特徴をどのように利用するかを理解するのに役立ちます。

要約(オリジナル)

Self-attention in vision transformers is often thought to perform perceptual grouping where tokens attend to other tokens with similar embeddings, which could correspond to semantically similar features of an object. However, attending to dissimilar tokens can be beneficial by providing contextual information. We propose to analyze the query-key interaction by the singular value decomposition of the interaction matrix (i.e. ${\textbf{W}_q}^\top\textbf{W}_k$). We find that in many ViTs, especially those with classification training objectives, early layers attend more to similar tokens, while late layers show increased attention to dissimilar tokens, providing evidence corresponding to perceptual grouping and contextualization, respectively. Many of these interactions between features represented by singular vectors are interpretable and semantic, such as attention between relevant objects, between parts of an object, or between the foreground and background. This offers a novel perspective on interpreting the attention mechanism, which contributes to understanding how transformer models utilize context and salient features when processing images.

arxiv情報

著者 Xu Pan,Aaron Philip,Ziqian Xie,Odelia Schwartz
発行日 2024-10-29 15:23:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク