Vision Conformer: Incorporating Convolutions into Vision Transformer Layers

要約

【タイトル】
Vision Conformer:ビジョントランスフォーマーレイヤーに畳み込みを組み込む

【要約】
– トランスフォーマーは、自己注意と埋め込みトークンを含む層の完全接続ノードのレイヤーを使用する人気のあるニューラルネットワークモデルである。
– ビジョン・トランスフォーマー(ViT)は、画像認識タスクにトランスフォーマーを適応したものである。そのため、画像をパッチに分割してトークンとして使用する。
– ViTの1つの問題は、画像構造に対する帰納的なバイアスがないことである。ViTは、言語モデリングからの画像データに適応されたため、複数のパッチで共有される構造と特徴のローカルな変換、ピクセル情報、および情報損失などの問題を明示的に処理しない。
– 一方で、畳み込みニューラルネットワーク(CNN)は、この情報を含んでいる。このため、この論文では、ViTに畳み込み層を使用することを提案し、ViTレイヤー内のMulti-Layer Perceptron(MLP)をCNNに置き換えたViCというモデルを提案している。
– また、CNNを使用するために、自己注意の後に画像データを逆埋め込みレイヤーで再構成することを提案している。
– 提案された畳み込みは、ViTの分類能力を向上させるのに役立つことが評価により示された。

要約(オリジナル)

Transformers are popular neural network models that use layers of self-attention and fully-connected nodes with embedded tokens. Vision Transformers (ViT) adapt transformers for image recognition tasks. In order to do this, the images are split into patches and used as tokens. One issue with ViT is the lack of inductive bias toward image structures. Because ViT was adapted for image data from language modeling, the network does not explicitly handle issues such as local translations, pixel information, and information loss in the structures and features shared by multiple patches. Conversely, Convolutional Neural Networks (CNN) incorporate this information. Thus, in this paper, we propose the use of convolutional layers within ViT. Specifically, we propose a model called a Vision Conformer (ViC) which replaces the Multi-Layer Perceptron (MLP) in a ViT layer with a CNN. In addition, to use the CNN, we proposed to reconstruct the image data after the self-attention in a reverse embedding layer. Through the evaluation, we demonstrate that the proposed convolutions help improve the classification ability of ViT.

arxiv情報

著者 Brian Kenji Iwana,Akihiro Kusuda
発行日 2023-04-27 07:27:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG パーマリンク