CNN or ViT? Revisiting Vision Transformers Through the Lens of Convolution

要約

Vision Transformer (ViT) の成功は、幅広い画像認識タスクで広く報告されています。
CNN に対する ViT の利点は、大規模なトレーニング データセットまたは補助的な事前トレーニングに主に起因しています。
事前トレーニングがないと、ローカル モデリングではグローバルな自己注意の能力が制限されるため、小規模なデータセットでの ViT のパフォーマンスは制限されます。
事前トレーニングを行わずに小さなデータセットで ViT を向上させるために、この研究では、元のセルフアテンション マトリックスに重みマスクを適用することでローカル モデリングを改善しています。
セルフ アテンション マトリックスを局所的に適応させる簡単な方法は、要素ごとに学習可能な重みマスク (ELM) によって実現でき、その予備的な結果は有望な結果を示しています。
ただし、要素ごとの単純な学習可能な重みマスクは、無視できない追加パラメーターのオーバーヘッドを引き起こすだけでなく、最適化の複雑さも増加します。
この目的を達成するために、この研究では、1 つのマスクが 2 つの学習可能なパラメータのみを持つ新しいガウス混合マスク (GMM) を提案します。このマスクは、アテンション メカニズムによりマスクの使用が許可されている任意の ViT バリアントで便利に使用できます。
複数の小さなデータセットでの実験結果は、ViT を無料で (追加のパラメーターまたは計算コストがほぼゼロで) ブーストするための私たちの提案するガウス マスクの有効性を示しています。
私たちのコードは \href{https://github.com/CatworldLee/Gaussian-Mixture-Mask-Attendance}{https://github.com/CatworldLee/Gaussian-Mixture-Mask-Attendance} で公開されます。

要約(オリジナル)

The success of Vision Transformer (ViT) has been widely reported on a wide range of image recognition tasks. The merit of ViT over CNN has been largely attributed to large training datasets or auxiliary pre-training. Without pre-training, the performance of ViT on small datasets is limited because the global self-attention has limited capacity in local modeling. Towards boosting ViT on small datasets without pre-training, this work improves its local modeling by applying a weight mask on the original self-attention matrix. A straightforward way to locally adapt the self-attention matrix can be realized by an element-wise learnable weight mask (ELM), for which our preliminary results show promising results. However, the element-wise simple learnable weight mask not only induces a non-trivial additional parameter overhead but also increases the optimization complexity. To this end, this work proposes a novel Gaussian mixture mask (GMM) in which one mask only has two learnable parameters and it can be conveniently used in any ViT variants whose attention mechanism allows the use of masks. Experimental results on multiple small datasets demonstrate that the effectiveness of our proposed Gaussian mask for boosting ViTs for free (almost zero additional parameter or computation cost). Our code will be publicly available at \href{https://github.com/CatworldLee/Gaussian-Mixture-Mask-Attention}{https://github.com/CatworldLee/Gaussian-Mixture-Mask-Attention}.

arxiv情報

著者 Chenghao Li,Chaoning Zhang
発行日 2023-09-11 10:54:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク