要約
マルチヘッド自己注意(MHSA)は、言語と視覚の両方で広く普及しているアーキテクチャであるトランスフォーマーの重要な構成要素である。マルチヘッドは直感的に、同じ入力に対して異なる並列処理を可能にする。しかし、それらはまた、モデルの出力に対する各入力パッチの帰属を不明瞭にする。我々は、従来のMHSAアーキテクチャの後に挿入され、解釈可能性と介入のための注意ボトルネックとして機能する、新しい1ヘッドのトランスフォーマー注意ボトルネック(TAB)層を提案する。標準的な自己注意とは異なり、TABは全パッチの総注意を$in [0, 1]$に制約する。すなわち、全注意が0のとき、視覚情報はそれ以上ネットワークに伝播されず、視覚言語モデル(VLM)は一般的な、画像に依存しない応答をデフォルトとする。TABの利点を実証するため、TABを用いてVLMを訓練し、画像差分キャプションを実行する。3つのデータセットにおいて、我々のモデルはキャプション付けにおいてベースラインVLMと同様の性能を示したが、ボトルネックは変化の局所化と変化がない場合の識別において優れていた。TABは、VLMによって期待される出力がしばしば生成される注意の編集によって、ユーザが介入することを可能にする最初のアーキテクチャである。
要約(オリジナル)
Multi-head self-attention (MHSA) is a key component of Transformers, a widely popular architecture in both language and vision. Multiple heads intuitively enable different parallel processes over the same input. Yet, they also obscure the attribution of each input patch to the output of a model. We propose a novel 1-head Transformer Attention Bottleneck (TAB) layer, inserted after the traditional MHSA architecture, to serve as an attention bottleneck for interpretability and intervention. Unlike standard self-attention, TAB constrains the total attention over all patches to $\in [0, 1]$. That is, when the total attention is 0, no visual information is propagated further into the network and the vision-language model (VLM) would default to a generic, image-independent response. To demonstrate the advantages of TAB, we train VLMs with TAB to perform image difference captioning. Over three datasets, our models perform similarly to baseline VLMs in captioning but the bottleneck is superior in localizing changes and in identifying when no changes occur. TAB is the first architecture to enable users to intervene by editing attention, which often produces expected outputs by VLMs.
arxiv情報
| 著者 | Pooyan Rahmanzadehgervi,Hung Huy Nguyen,Rosanne Liu,Long Mai,Anh Totti Nguyen | 
| 発行日 | 2025-01-03 14:58:50+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
