How Do Vision Transformers Work?

要約

コンピュータビジョンにおける多頭自己アテンション(MSA)の成功は、今や議論の余地がない。しかし、MSAがどのように機能するかについては、ほとんど知られていない。我々は、MSAの本質をより良く理解するための基礎的な説明を提示する。特に、MSAとVision Transformer(ViT)の以下の特性を示す。(1)MSAは損失地形を平坦化することにより、精度だけでなく汎化性も向上させる。このような改善は、長距離依存性ではなく、主にそのデータ特異性に起因する。一方、ViTは凸でない損失に悩まされる。この問題は、大規模なデータセットと損失ランドスケープの平滑化手法によって緩和される。例えば、MSAはローパスフィルタであるが、Convはハイパスフィルタである。そのため、MSAとConvは相補的である。(3)多段ニューラルネットは、小さな個別モデルの直列接続のように振る舞う。また、あるステージの最後にあるMSAは予測において重要な役割を果たす。これらの知見に基づき、ステージ末尾のConvブロックをMSAブロックに置き換えたモデル、AlterNetを提案する。AlterNetは大規模データ領域だけでなく、小規模データ領域においてもCNNを上回る性能を発揮する。コードは https://github.com/xxxnell/how-do-vits-work で公開されています。

要約(オリジナル)

The success of multi-head self-attentions (MSAs) for computer vision is now indisputable. However, little is known about how MSAs work. We present fundamental explanations to help better understand the nature of MSAs. In particular, we demonstrate the following properties of MSAs and Vision Transformers (ViTs): (1) MSAs improve not only accuracy but also generalization by flattening the loss landscapes. Such improvement is primarily attributable to their data specificity, not long-range dependency. On the other hand, ViTs suffer from non-convex losses. Large datasets and loss landscape smoothing methods alleviate this problem; (2) MSAs and Convs exhibit opposite behaviors. For example, MSAs are low-pass filters, but Convs are high-pass filters. Therefore, MSAs and Convs are complementary; (3) Multi-stage neural networks behave like a series connection of small individual models. In addition, MSAs at the end of a stage play a key role in prediction. Based on these insights, we propose AlterNet, a model in which Conv blocks at the end of a stage are replaced with MSA blocks. AlterNet outperforms CNNs not only in large data regimes but also in small data regimes. The code is available at https://github.com/xxxnell/how-do-vits-work.

arxiv情報

著者 Namuk Park,Songkuk Kim
発行日 2022-06-08 12:41:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク