MogaNet: Multi-order Gated Aggregation Network

要約

カーネルを可能な限りグローバルにコンテキスト化することにより、Modern ConvNet はコンピューター ビジョン タスクにおいて大きな可能性を示しました。
しかし、ディープ ニューラル ネットワーク (DNN) 内の \textit{多次ゲーム理論的相互作用} に関する最近の進歩により、カーネル サイズの増加によって表現的相互作用が効果的にエンコードされていない、現代の ConvNet の表現ボトルネックが明らかになりました。
この課題に取り組むために、我々は、有利な複雑さとパフォーマンスのトレードオフを備えた純粋な ConvNet ベースのモデルで視覚表現を識別学習するための、MogaNet と呼ばれる最新の ConvNet の新しいファミリーを提案します。
MogaNet は、概念的にシンプルだが効果的な畳み込みとゲート集約をコンパクトなモジュールにカプセル化します。そこでは、識別機能が効率的に収集され、適応的にコンテキスト化されます。
MogaNet は、ImageNet および COCO オブジェクト検出、ADE20K セマンティック セグメンテーション、2D/3D 人間の姿勢推定、および
動画予想。
特に、MogaNet は、ImageNet-1K 上の 5.2M および 181M パラメータで 80.0\% および 87.8\% の精度に達し、ParC-Net および ConvNeXt-L を上回り、それぞれ 59\% FLOP と 17M パラメータを節約します。
ソース コードは \url{https://github.com/Westlake-AI/MogaNet} で入手できます。

要約(オリジナル)

By contextualizing the kernel as global as possible, Modern ConvNets have shown great potential in computer vision tasks. However, recent progress on \textit{multi-order game-theoretic interaction} within deep neural networks (DNNs) reveals the representation bottleneck of modern ConvNets, where the expressive interactions have not been effectively encoded with the increased kernel size. To tackle this challenge, we propose a new family of modern ConvNets, dubbed MogaNet, for discriminative visual representation learning in pure ConvNet-based models with favorable complexity-performance trade-offs. MogaNet encapsulates conceptually simple yet effective convolutions and gated aggregation into a compact module, where discriminative features are efficiently gathered and contextualized adaptively. MogaNet exhibits great scalability, impressive efficiency of parameters, and competitive performance compared to state-of-the-art ViTs and ConvNets on ImageNet and various downstream vision benchmarks, including COCO object detection, ADE20K semantic segmentation, 2D\&3D human pose estimation, and video prediction. Notably, MogaNet hits 80.0\% and 87.8\% accuracy with 5.2M and 181M parameters on ImageNet-1K, outperforming ParC-Net and ConvNeXt-L, while saving 59\% FLOPs and 17M parameters, respectively. The source code is available at \url{https://github.com/Westlake-AI/MogaNet}.

arxiv情報

著者 Siyuan Li,Zedong Wang,Zicheng Liu,Cheng Tan,Haitao Lin,Di Wu,Zhiyuan Chen,Jiangbin Zheng,Stan Z. Li
発行日 2024-02-16 14:17:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク