要約
人間は複雑なシーンで目立つ領域を効果的に見つけることができます。
これを実現するために、自己注意メカニズムがコンピュータービジョン(CV)に導入されました。
Attention Augmented Convolutional Network(AANet)は、畳み込みと自己注意を組み合わせたものであり、一般的なResNetの精度を高めます。
ただし、自己注意の複雑さは、入力トークンの数に関する計算とメモリ使用量の点でO(n2)です。
このプロジェクトでは、EAANet:Efficient Attention Augmented Convolutional Networksを提案します。これは、畳み込みと自己注意のハイブリッドアーキテクチャに効率的な自己注意メカニズムを組み込んで、モデルのメモリフットプリントを削減します。
私たちの最高のモデルは、AA-NetおよびResNet18よりもパフォーマンスが向上していることを示しています。
また、自己注意メカニズムを使用して畳み込みネットワークを拡張するさまざまな方法を検討し、ResNetと比較してそれらの方法をトレーニングすることの難しさを示します。
最後に、ResNetを使用して効率的な自己注意メカニズムを強化すると、通常の自己注意メカニズムよりも入力サイズに応じて拡張できることを示します。
したがって、EAANetは高解像度の画像をより適切に処理できます。
要約(オリジナル)
Humans can effectively find salient regions in complex scenes. Self-attention mechanisms were introduced into Computer Vision (CV) to achieve this. Attention Augmented Convolutional Network (AANet) is a mixture of convolution and self-attention, which increases the accuracy of a typical ResNet. However, The complexity of self-attention is O(n2) in terms of computation and memory usage with respect to the number of input tokens. In this project, we propose EAANet: Efficient Attention Augmented Convolutional Networks, which incorporates efficient self-attention mechanisms in a convolution and self-attention hybrid architecture to reduce the model’s memory footprint. Our best model show performance improvement over AA-Net and ResNet18. We also explore different methods to augment Convolutional Network with self-attention mechanisms and show the difficulty of training those methods compared to ResNet. Finally, we show that augmenting efficient self-attention mechanisms with ResNet scales better with input size than normal self-attention mechanisms. Therefore, our EAANet is more capable of working with high-resolution images.
arxiv情報
著者 | Runqing Zhang,Tianshu Zhu |
発行日 | 2022-06-03 21:22:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google