LKCA: Large Kernel Convolutional Attention

要約

我々は、視覚変換器における注意機構とラージカーネル畳み込みネットの関係を再検討し、ラージカーネル畳み込み注意(LKCA)と名付けられた新しい空間的注意を提案する。これは、単一のラージカーネル畳み込みに置き換えることで、注意操作を単純化する。LKCAは、畳み込みニューラルネットワークと視覚変換器の長所を組み合わせ、大きな受容野、局所性、パラメータ共有を持つ。我々は、畳み込みと注意の両方の観点からLKCAの優位性を説明し、それぞれの観点から等価なコード実装を提供した。実験により、畳み込みと注意の両方の観点から実装されたLKCAが同等の性能を示すことを確認した。我々は、ViTのLKCA変種を用いて、分類とセグメンテーションの両タスクで広範な実験を行った。実験の結果、LKCAは視覚タスクにおいて競争力のある性能を示すことが実証された。我々のコードは https://github.com/CatworldLee/LKCA で公開される予定である。

要約(オリジナル)

We revisit the relationship between attention mechanisms and large kernel ConvNets in visual transformers and propose a new spatial attention named Large Kernel Convolutional Attention (LKCA). It simplifies the attention operation by replacing it with a single large kernel convolution. LKCA combines the advantages of convolutional neural networks and visual transformers, possessing a large receptive field, locality, and parameter sharing. We explained the superiority of LKCA from both convolution and attention perspectives, providing equivalent code implementations for each view. Experiments confirm that LKCA implemented from both the convolutional and attention perspectives exhibit equivalent performance. We extensively experimented with the LKCA variant of ViT in both classification and segmentation tasks. The experiments demonstrated that LKCA exhibits competitive performance in visual tasks. Our code will be made publicly available at https://github.com/CatworldLee/LKCA.

arxiv情報

著者 Chenghao Li,Boheng Zeng,Yi Lu,Pengbo Shi,Qingzi Chen,Jirui Liu,Lingyun Zhu
発行日 2024-02-05 15:01:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク