要約
最近の研究では、ビジョン トランスフォーマー (ViT) の顕著なパフォーマンスは、広い受容野から恩恵を受けていることが明らかになりました。
このため、大規模な畳み込みカーネル設計は、畳み込みニューラル ネットワーク (CNN) を再び優れたものにするための理想的なソリューションになります。
ただし、典型的な大規模畳み込みカーネルはハードウェアに不向きな演算子であることが判明し、その結果、さまざまなハードウェア プラットフォームの互換性が低下します。
したがって、畳み込みカーネルのサイズを単純に拡大することは賢明ではありません。
この論文では、小さな畳み込みカーネルと畳み込み演算が大きなカーネル サイズのクロージング効果を達成できることを明らかにします。
次に、ハードウェアに優しいままでありながら、CNN がスパース メカニズムの助けを借りて長距離の依存関係を確実に捕捉するシフトワイズ演算子を提案します。
実験結果は、シフトワイズ演算子が通常の CNN の精度を大幅に向上させながら、計算要件を大幅に削減することを示しています。
ImageNet-1k では、シフト的に強化された CNN モデルは最先端のモデルを上回ります。
コードとモデルは https://github.com/lidc54/shift-wiseConv にあります。
要約(オリジナル)
Recent studies reveal that the remarkable performance of Vision transformers (ViTs) benefits from large receptive fields. For this reason, the large convolutional kernel design becomes an ideal solution to make Convolutional Neural Networks (CNNs) great again. However, the typical large convolutional kernels turn out to be hardware-unfriendly operators, resulting in discount compatibility of various hardware platforms. Thus, it is unwise to simply enlarge the convolutional kernel size. In this paper, we reveal that small convolutional kernels and convolution operations can achieve the closing effects of large kernel sizes. Then, we propose a shift-wise operator that ensures the CNNs capture long-range dependencies with the help of the sparse mechanism, while remaining hardware-friendly. Experimental results show that our shift-wise operator significantly improves the accuracy of a regular CNN while markedly reducing computational requirements. On the ImageNet-1k, our shift-wise enhanced CNN model outperforms the state-of-the-art models. Code & models at https://github.com/lidc54/shift-wiseConv.
arxiv情報
著者 | Dachong Li,Li Li,Zhuangzhuang Chen,Jianqiang Li |
発行日 | 2024-01-23 13:13:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google