RFAConv: Innovating Spatital Attention and Standard Convolutional Operation

要約

タイトル:RFAConv:空間的注意重視型手法および標準畳み込み操作の革新

要約:

– 畳み込みニューラルネットワークの性能向上のため、空間的注意重視型手法が広く使用されています。
– 空間的注意重視型手法は、畳み込みカーネルパラメータ共有の問題を解決することができるという新しい観点が提案されています。
– ただし、空間的注意重視型手法によって生成された注目マップに含まれる情報は、大型畳み込みカーネルに対しては十分ではありません。
– このような問題を解決するために、新しい注意機構であるReceptive-Field Attention(RFA)が提案されています。
– RFAは、従来の空間的注意重視型手法と異なり、受容野空間特徴に焦点を当てるだけでなく、大型畳み込みカーネルに対して効果的な注意重みを提供します。
– RFAConvは、RFAによって開発された畳み込み操作であり、標準的な畳み込み操作を置き換える新しいアプローチを表します。ほぼ無視できるコンピュータコストおよびパラメータ増加を提供し、ネットワークの性能を大幅に向上させます。
– ImageNet-1k、MS COCO、およびVOCデータセットでの一連の実験は、分類、物体検出、セマンティックセグメンテーションなど、さまざまなタスクにおいて、当手法の優越性を証明しています。
– 特に、現在の空間的注意重視型手法において、受容野空間特徴に焦点を当てることが重要であり、これにより、ネットワークの性能をさらに向上させ、さらに良い結果を実現できると考えています。
– 関連するタスクのコードと事前学習済みモデルは、https://github.com/Liuchen1997/RFAConvで入手できます。

要約(オリジナル)

Spatial attention has been widely used to improve the performance of convolutional neural networks by allowing them to focus on important information. However, it has certain limitations. In this paper, we propose a new perspective on the effectiveness of spatial attention, which is that it can solve the problem of convolutional kernel parameter sharing. Despite this, the information contained in the attention map generated by spatial attention is not sufficient for large-size convolutional kernels. Therefore, we introduce a new attention mechanism called Receptive-Field Attention (RFA). While previous attention mechanisms such as the Convolutional Block Attention Module (CBAM) and Coordinate Attention (CA) only focus on spatial features, they cannot fully address the issue of convolutional kernel parameter sharing. In contrast, RFA not only focuses on the receptive-field spatial feature but also provides effective attention weights for large-size convolutional kernels. The Receptive-Field Attention convolutional operation (RFAConv), developed by RFA, represents a new approach to replace the standard convolution operation. It offers nearly negligible increment of computational cost and parameters, while significantly improving network performance. We conducted a series of experiments on ImageNet-1k, MS COCO, and VOC datasets, which demonstrated the superiority of our approach in various tasks including classification, object detection, and semantic segmentation. Of particular importance, we believe that it is time to shift focus from spatial features to receptive-field spatial features for current spatial attention mechanisms. By doing so, we can further improve network performance and achieve even better results. The code and pre-trained models for the relevant tasks can be found at https://github.com/Liuchen1997/RFAConv.

arxiv情報

著者 Xin Zhang,Chen Liu,Degang Yang,Tingting Song,Yichen Ye,Ke Li,Yingze Song
発行日 2023-04-13 13:56:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク