要約
Vision Transformer(ViT)は、視覚認識において最先端の性能を達成しており、その改良版であるLocal Vision Transformerは、さらなる改良を加えている。Local Vision Transformerの主要コンポーネントである局所的注意は、小さな局所窓に対して個別に注意を実行する。我々は、局所的注意をチャネル単位の局所接続層と言い換え、疎結合性と重み共有という2つのネットワーク正則化の作法と、重み計算から分析する。疎結合性:チャンネルをまたいだ結合はなく、各位置は小さなローカルウィンドウ内の位置と結合している。ウェイト共有:1つのポジションの接続ウェイトをチャネル間またはチャネルグループ内で共有する。動的重み付け:接続の重みは各画像インスタンスに応じて動的に予測される。我々は、局所的注意が深さ方向の畳み込みとその動的バージョンに似ていることを指摘します。主な違いは重みの共有にあり、深さ方向の畳み込みは空間的な位置で接続重み(カーネル重み)を共有する。我々は、ImageNetの分類、COCOオブジェクト検出、ADEセマンティックセグメンテーションにおいて、深さ方向畳み込みと計算量の少ない動的変形に基づくモデルが、Local Vision Transformerの一例であるSwin Transformerと同等か、時には若干良い性能を示すことを経験的に観察している。これらの結果は、Local Vision Transformerが2つの正則化形式と動的な重みを利用してネットワーク能力を向上させていることを示唆している。コードは https://github.com/Atten4Vis/DemystifyLocalViT で公開しています。
要約(オリジナル)
Vision Transformer (ViT) attains state-of-the-art performance in visual recognition, and the variant, Local Vision Transformer, makes further improvements. The major component in Local Vision Transformer, local attention, performs the attention separately over small local windows. We rephrase local attention as a channel-wise locally-connected layer and analyze it from two network regularization manners, sparse connectivity and weight sharing, as well as weight computation. Sparse connectivity: there is no connection across channels, and each position is connected to the positions within a small local window. Weight sharing: the connection weights for one position are shared across channels or within each group of channels. Dynamic weight: the connection weights are dynamically predicted according to each image instance. We point out that local attention resembles depth-wise convolution and its dynamic version in sparse connectivity. The main difference lies in weight sharing – depth-wise convolution shares connection weights (kernel weights) across spatial positions. We empirically observe that the models based on depth-wise convolution and the dynamic variant with lower computation complexity perform on-par with or sometimes slightly better than Swin Transformer, an instance of Local Vision Transformer, for ImageNet classification, COCO object detection and ADE semantic segmentation. These observations suggest that Local Vision Transformer takes advantage of two regularization forms and dynamic weight to increase the network capacity. Code is available at https://github.com/Atten4Vis/DemystifyLocalViT.
arxiv情報
著者 | Qi Han,Zejia Fan,Qi Dai,Lei Sun,Ming-Ming Cheng,Jiaying Liu,Jingdong Wang |
発行日 | 2022-08-04 09:27:15+00:00 |
arxivサイト | arxiv_id(pdf) |