Rethinking Mobile Block for Efficient Neural Models

要約

本論文では、高密度な予測を行うために、低いパラメータとFLOPsで効率的なモデルを設計することに焦点を当てる。CNNベースの軽量化手法は長年の研究の結果、驚くべき結果を達成しているが、モデルの精度と制約されたリソースのトレードオフにはまだ更なる改善が必要である。本研究では、MobileNetv2の効率的なInverted Residual BlockとViTの効率的なTransformerの本質的な一体性を再考し、Meta Mobile Blockという一般概念を帰納的に抽象化し、同じ枠組みを共有しながら、具体的なインスタンス化がモデル性能に非常に重要であることを論じる。この現象に動機付けられ、我々はモバイルアプリケーションのためのシンプルで効率的な現代的 \textbf{I}nverted \textbf{R}esidual|Mobile|textbf{B}lock (iRMB) を推論し、短距離依存関係をモデル化するCNN的効率と長距離相互作用を学ぶTransformer的動的モデル化能力を吸収する。さらに、高密度なアプリケーションのために、一連のiRMBのみに基づくResNetライクな4相の効率的なEMO(Efficient \textbf{MO}del) を設計します。ImageNet-1K, COCO2017, ADE20Kベンチマークでの大規模実験により、我々のEMOが最先端手法に対して優位であることが実証されました。CNN/Transformerベースのモデルに対して、EMO-1M/2M/5Mは、モデルの精度と効率をうまくトレードオフしながら、71.5、75.1、78.4 Top-1を達成しました。

要約(オリジナル)

This paper focuses on designing efficient models with low parameters and FLOPs for dense predictions. Even though CNN-based lightweight methods have achieved stunning results after years of research, trading-off model accuracy and constrained resources still need further improvements. This work rethinks the essential unity of efficient Inverted Residual Block in MobileNetv2 and effective Transformer in ViT, inductively abstracting a general concept of Meta-Mobile Block, and we argue that the specific instantiation is very important to model performance though sharing the same framework. Motivated by this phenomenon, we deduce a simple yet efficient modern \textbf{I}nverted \textbf{R}esidual \textbf{M}obile \textbf{B}lock (iRMB) for mobile applications, which absorbs CNN-like efficiency to model short-distance dependency and Transformer-like dynamic modeling capability to learn long-distance interactions. Furthermore, we design a ResNet-like 4-phase \textbf{E}fficient \textbf{MO}del (EMO) based only on a series of iRMBs for dense applications. Massive experiments on ImageNet-1K, COCO2017, and ADE20K benchmarks demonstrate the superiority of our EMO over state-of-the-art methods, \eg, our EMO-1M/2M/5M achieve 71.5, 75.1, and 78.4 Top-1 that surpass \textbf{SoTA} CNN-/Transformer-based models, while trading-off the model accuracy and efficiency well.

arxiv情報

著者 Jiangning Zhang,Xiangtai Li,Jian Li,Liang Liu,Zhucun Xue,Boshen Zhang,Zhengkai Jiang,Tianxin Huang,Yabiao Wang,Chengjie Wang
発行日 2023-01-03 15:11:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク