Gaussian Mask Convolution for Convolutional Neural Networks

要約

平方畳み込みは、畳み込み演算のテンソル計算にうまく適合するため、畳み込みニューラル ネットワークの既定の単位です。これは通常、N x N の受容野 (RF) が固定されています。
ただし、ネットワークにとって最も重要なのは有効受容野 (ERF) です。これは、各ピクセルが出力に寄与する範囲を示します。
ERF はガウス分布を示し、オフセットのあるピクセルを単純にサンプリングするだけではモデル化できません。
ERF をシミュレートするために、この作業でガウス マスク畳み込みカーネル (GMConv) を提案します。
具体的には、GMConv はガウス関数を利用して同心対称マスクを生成し、そのマスクをカーネル上に配置して RF を調整します。
当社の GMConv は、既存の CNN の標準的な畳み込みを直接置き換えることができ、標準的なバックプロパゲーションによってエンドツーエンドで簡単にトレーニングできます。
複数の画像分類ベンチマーク データセットに関する広範な実験により、私たちの方法が標準的な畳み込みに匹敵し、多くの場合それを上回ることが示されています。
たとえば、AlexNet と ResNet-50 に GMConv を使用すると、ImageNet 分類の上位 1 位の精度がそれぞれ 0.98% と 0.85% 向上します。

要約(オリジナル)

Square convolution is a default unit in convolutional neural networks as it fits well on the tensor computation for convolution operation, which usually has a fixed N x N receptive field (RF). However, what matters most to the network is the effective receptive field (ERF), which indicates the extent each pixel contributes to the output. ERF shows a Gaussian distribution and can not be modeled by simply sampling pixels with offsets. To simulate ERF, we propose a Gaussian Mask convolutional kernel (GMConv) in this work. Specifically, GMConv utilizes the Gaussian function to generate a concentric symmetry mask and put the mask over the kernel to refine the RF. Our GMConv can directly replace the standard convolutions in existing CNNs and can be easily trained end-to-end by standard backpropagation. Extensive experiments on multiple image classification benchmark datasets show that our method is comparable to, and outperforms in many cases, the standard convolution. For instance, using GMConv for AlexNet and ResNet-50, the top-1 accuracy on ImageNet classification is boosted by 0.98% and 0.85%, respectively.

arxiv情報

著者 Qi Chen,Chao Li,Jia Ning,Kun He
発行日 2023-02-09 10:17:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク