GMConv: Modulating Effective Receptive Fields for Convolutional Kernels

要約

タイトル:GMConv:畳み込みカーネルの有効受容野を変調する

要約:

– 畳み込みニューラルネットワークでは通常、固定されたN $\times$ Nの受容野を持つ正方形カーネルを使用して畳み込みを実行する
– しかし、ネットワークにとって最も重要なのは、入力ピクセルが出力ピクセルにどの程度寄与するかを示す効果的な受容野(ERF)である
– ERFは通常、ガウス分布を示すという特性があるため、本論文では、ガウスマスク畳み込みカーネル(GMConv)を提案する
– 具体的には、GMConvはガウス関数を使用して、円環状の対称マスクを生成し、カーネルに配置してRFを調整する
– GMConvは従来の畳み込みを直接置き換えることができ、標準的なバックプロパゲーションによって簡単にエンドツーエンドでトレーニングできる
– 本手法は、画像分類と物体検出のタスクで広範な実験によって評価されている
– 複数のタスクと標準的なベースモデルで、GMConvは従来の畳み込みよりも優れた結果を示す
– たとえば、AlexNetやResNet-50にGMConvを使用すると、ImageNet分類のトップ1精度がそれぞれ0.98%、0.85%向上する

要約(オリジナル)

In convolutional neural networks, the convolutions are conventionally performed using a square kernel with a fixed N $\times$ N receptive field (RF). However, what matters most to the network is the effective receptive field (ERF) that indicates the extent with which input pixels contribute to an output pixel. Inspired by the property that ERFs typically exhibit a Gaussian distribution, we propose a Gaussian Mask convolutional kernel (GMConv) in this work. Specifically, GMConv utilizes the Gaussian function to generate a concentric symmetry mask that is placed over the kernel to refine the RF. Our GMConv can directly replace the standard convolutions in existing CNNs and can be easily trained end-to-end by standard back-propagation. We evaluate our approach through extensive experiments on image classification and object detection tasks. Over several tasks and standard base models, our approach compares favorably against the standard convolution. For instance, using GMConv for AlexNet and ResNet-50, the top-1 accuracy on ImageNet classification is boosted by 0.98% and 0.85%, respectively.

arxiv情報

著者 Qi Chen,Chao Li,Jia Ning,Stephen Lin,Kun He
発行日 2023-04-20 03:35:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク