InceptionNeXt: When Inception Meets ConvNeXt

要約

ViT の長距離モデリング能力に着想を得て、大規模なカーネル畳み込みが広く研究され、受容野を拡大してモデルのパフォーマンスを向上させるために最近採用されています。
このような深さ方向の演算子は数 FLOP しか消費しませんが、メモリ アクセス コストが高いため、強力なコンピューティング デバイスではモデルの効率が大幅に低下します。
たとえば、ConvNeXt-T は ResNet-50 と同様の FLOP を持っていますが、A100 GPU で完全な精度でトレーニングした場合、60% のスループットしか達成できません。
ConvNeXt のカーネル サイズを小さくすると速度は向上しますが、パフォーマンスが大幅に低下します。
大規模なカーネルベースの CNN モデルをパフォーマンスを維持しながら高速化する方法はまだ不明です。
この問題に取り組むために、Inceptions に着想を得て、大きなカーネルの深さ方向の畳み込みをチャネル次元に沿った 4 つの並列ブランチ、つまり小さな正方形カーネル、2 つの直交バンド カーネル、およびアイデンティティ マッピングに分解することを提案します。
この新しい Inception の深さ方向の畳み込みにより、高いスループットを享受するだけでなく、競争力のあるパフォーマンスを維持する一連のネットワーク、つまり IncepitonNeXt を構築します。
たとえば、InceptionNeXt-T は、ConvNeX-T よりも 1.6 倍高いトレーニング スループットを達成し、ImageNet-1K で 0.2% のトップ 1 精度の向上を達成します。
InceptionNeXt は、二酸化炭素排出量を削減するための将来のアーキテクチャ設計の経済的なベースラインとして役立つと期待しています。
コードは https://github.com/sail-sg/inceptionnext で入手できます。

要約(オリジナル)

Inspired by the long-range modeling ability of ViTs, large-kernel convolutions are widely studied and adopted recently to enlarge the receptive field and improve model performance, like the remarkable work ConvNeXt which employs 7×7 depthwise convolution. Although such depthwise operator only consumes a few FLOPs, it largely harms the model efficiency on powerful computing devices due to the high memory access costs. For example, ConvNeXt-T has similar FLOPs with ResNet-50 but only achieves 60% throughputs when trained on A100 GPUs with full precision. Although reducing the kernel size of ConvNeXt can improve speed, it results in significant performance degradation. It is still unclear how to speed up large-kernel-based CNN models while preserving their performance. To tackle this issue, inspired by Inceptions, we propose to decompose large-kernel depthwise convolution into four parallel branches along channel dimension, i.e. small square kernel, two orthogonal band kernels, and an identity mapping. With this new Inception depthwise convolution, we build a series of networks, namely IncepitonNeXt, which not only enjoy high throughputs but also maintain competitive performance. For instance, InceptionNeXt-T achieves 1.6x higher training throughputs than ConvNeX-T, as well as attains 0.2% top-1 accuracy improvement on ImageNet-1K. We anticipate InceptionNeXt can serve as an economical baseline for future architecture design to reduce carbon footprint. Code is available at https://github.com/sail-sg/inceptionnext.

arxiv情報

著者 Weihao Yu,Pan Zhou,Shuicheng Yan,Xinchao Wang
発行日 2023-03-29 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク