要約
本研究は、ビジョン変換器(ViT)の効率を向上させることを目的としている。ViTは各層で計算量の多い自己注意演算を行うが、これらの演算は層間で高い相関があり、不要な演算を引き起こす重要な冗長性であることを見出した。そこで、我々はSkipAtを提案する。SkipAtは、先行する層の自己注意の計算を再利用し、後続する1つ以上の層で注意を近似する方法である。自己注意のブロックを層を超えて再利用しても性能が低下しないように、簡単なパラメトリック関数を導入し、計算速度を上げながらベースラインの変換器の性能を上回る。本手法の有効性を、ImageNet-1Kにおける画像分類と自己教師付き学習、ADE20Kにおける意味分割、SIDDにおける画像ノイズ除去、DAVISにおける動画像ノイズ除去で示す。我々は、これら全てのタスクにおいて、同程度以上の精度でスループットの向上を達成した。
要約(オリジナル)
This work aims to improve the efficiency of vision transformers (ViT). While ViTs use computationally expensive self-attention operations in every layer, we identify that these operations are highly correlated across layers — a key redundancy that causes unnecessary computations. Based on this observation, we propose SkipAt, a method to reuse self-attention computation from preceding layers to approximate attention at one or more subsequent layers. To ensure that reusing self-attention blocks across layers does not degrade the performance, we introduce a simple parametric function, which outperforms the baseline transformer’s performance while running computationally faster. We show the effectiveness of our method in image classification and self-supervised learning on ImageNet-1K, semantic segmentation on ADE20K, image denoising on SIDD, and video denoising on DAVIS. We achieve improved throughput at the same-or-higher accuracy levels in all these tasks.
arxiv情報
著者 | Shashanka Venkataramanan,Amir Ghodrati,Yuki M. Asano,Fatih Porikli,Amirhossein Habibian |
発行日 | 2023-01-05 18:59:52+00:00 |
arxivサイト | arxiv_id(pdf) |