EMOv2: Pushing 5M Vision Model Frontier

要約

この作業は、パラメーター、FLOP、パフォーマンスをトレードオフしながら、高密度予測のためのパラメーター効率の高い軽量モデルの開発に焦点を当てています。
私たちの目標は、さまざまな下流タスクで 500 万等級の軽量モデルの新境地を確立することです。
Inverted Residual Block (IRB) は軽量 CNN のインフラストラクチャとして機能しますが、対応するものはアテンションベースの設計で認識されていません。
私たちの研究では、効率的な IRB と Transformer の実用的なコンポーネントの軽量インフラストラクチャを統一的な観点から再考し、CNN ベースの IRB をアテンションベースのモデルに拡張し、軽量モデル設計のための 1 残差メタ モバイル ブロック (MMBlock) を抽象化します。
きちんとしているが効果的な設計基準に従って、最新の改良型反転残差モバイル ブロック (i2RMB) を推定し、手の込んだ複雑な構造を持たない階層型効率モデル (EMOv2) を改良します。
4G/5G 帯域幅でモデルをダウンロードする際のモバイル ユーザーの知覚できない遅延を考慮し、モデルのパフォーマンスを確保するために、5M 規模の軽量モデルのパフォーマンスの上限を調査します。
さまざまな視覚認識、高密度予測、および画像生成タスクに関する広範な実験により、当社の EMOv2 が最先端の手法よりも優れていることが実証されています。たとえば、EMOv2-1M/2M/5M は 72.3、75.8、および 79.4 の Top-1 を達成しています。
等次数 CNN/アテンション ベースのモデルを大幅に上回ります。
同時に、EMOv2-5M を搭載した RetinaNet は、物体検出タスクで以前の EMO-5M を +2.6 上回る 41.5 mAP を達成します。
より堅牢なトレーニング レシピを採用すると、当社の EMOv2-5M は最終的に 82.9 Top-1 精度を達成し、500 万等級モデルのパフォーマンスを新たなレベルに引き上げます。
コードは https://github.com/zhangzjn/EMOv2 で入手できます。

要約(オリジナル)

This work focuses on developing parameter-efficient and lightweight models for dense predictions while trading off parameters, FLOPs, and performance. Our goal is to set up the new frontier of the 5M magnitude lightweight model on various downstream tasks. Inverted Residual Block (IRB) serves as the infrastructure for lightweight CNNs, but no counterparts have been recognized by attention-based design. Our work rethinks the lightweight infrastructure of efficient IRB and practical components in Transformer from a unified perspective, extending CNN-based IRB to attention-based models and abstracting a one-residual Meta Mobile Block (MMBlock) for lightweight model design. Following neat but effective design criterion, we deduce a modern Improved Inverted Residual Mobile Block (i2RMB) and improve a hierarchical Efficient MOdel (EMOv2) with no elaborate complex structures. Considering the imperceptible latency for mobile users when downloading models under 4G/5G bandwidth and ensuring model performance, we investigate the performance upper limit of lightweight models with a magnitude of 5M. Extensive experiments on various vision recognition, dense prediction, and image generation tasks demonstrate the superiority of our EMOv2 over state-of-the-art methods, e.g., EMOv2-1M/2M/5M achieve 72.3, 75.8, and 79.4 Top-1 that surpass equal-order CNN-/Attention-based models significantly. At the same time, EMOv2-5M equipped RetinaNet achieves 41.5 mAP for object detection tasks that surpasses the previous EMO-5M by +2.6. When employing the more robust training recipe, our EMOv2-5M eventually achieves 82.9 Top-1 accuracy, which elevates the performance of 5M magnitude models to a new level. Code is available at https://github.com/zhangzjn/EMOv2.

arxiv情報

著者 Jiangning Zhang,Teng Hu,Haoyang He,Zhucun Xue,Yabiao Wang,Chengjie Wang,Yong Liu,Xiangtai Li,Dacheng Tao
発行日 2024-12-09 17:12:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク