Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations

要約

この論文では、最新の畳み込みニューラル ネットワーク (ConvNet) の設計における大規模畳み込みカーネルのパラダイムを提案します。
私たちは、複数の小さなカーネルを積み重ねる代わりに、いくつかの大きなカーネルを採用することが優れた設計戦略となり得ることを証明しています。
私たちの取り組みでは、大規模カーネル ConvNet の効率とパフォーマンスを最適化する一連のアーキテクチャ設計ガイドラインを導入しています。
私たちは UniRepLKNet アーキテクチャを提案します。これは、大規模カーネル ConvNet 向けに特別に作成された体系的なアーキテクチャ設計原則を提供し、深い層のスタッキングを行わずに広範な空間情報をキャプチャする独自の機能を強調します。
その結果、ImageNet 精度 88.0%、ADE20K mIoU 55.6%、COCO box AP 56.4% という以前のモデルを上回るだけでなく、時系列予測などのさまざまなモダリティで優れたスケーラビリティとパフォーマンスを実証するモデルが実現しました。
、オーディオ、点群、ビデオ認識。
これらの結果は、ビジョン トランスフォーマーと比較して推論速度が速い大規模カーネル ConvNet の汎用モデリング能力を示しています。
私たちの調査結果は、大きなカーネルの ConvNet はより大きな有効受容野とより高い形状バイアスを持ち、小さなカーネルの CNN に典型的なテクスチャ バイアスから離れていることを明らかにしています。
すべてのコードとモデルは https://github.com/AILab-CVC/UniRepLKNet で公開されており、コミュニティでのさらなる研究開発が促進されます。

要約(オリジナル)

This paper proposes the paradigm of large convolutional kernels in designing modern Convolutional Neural Networks (ConvNets). We establish that employing a few large kernels, instead of stacking multiple smaller ones, can be a superior design strategy. Our work introduces a set of architecture design guidelines for large-kernel ConvNets that optimize their efficiency and performance. We propose the UniRepLKNet architecture, which offers systematical architecture design principles specifically crafted for large-kernel ConvNets, emphasizing their unique ability to capture extensive spatial information without deep layer stacking. This results in a model that not only surpasses its predecessors with an ImageNet accuracy of 88.0%, an ADE20K mIoU of 55.6%, and a COCO box AP of 56.4% but also demonstrates impressive scalability and performance on various modalities such as time-series forecasting, audio, point cloud, and video recognition. These results indicate the universal modeling abilities of large-kernel ConvNets with faster inference speed compared with vision transformers. Our findings reveal that large-kernel ConvNets possess larger effective receptive fields and a higher shape bias, moving away from the texture bias typical of smaller-kernel CNNs. All codes and models are publicly available at https://github.com/AILab-CVC/UniRepLKNet promoting further research and development in the community.

arxiv情報

著者 Yiyuan Zhang,Xiaohan Ding,Xiangyu Yue
発行日 2024-10-10 15:43:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク