iFormer: Integrating ConvNet and Transformer for Mobile Application

要約

Iformerと呼ばれるモバイルハイブリッドビジョンネットワークの新しいファミリーを紹介し、モバイルアプリケーションの遅延と精度の最適化に重点を置いています。
Iformerは、畳み込みの高速ローカル表現能力を、自己触たちの効率的なグローバルモデリング能力と効果的に統合します。
局所的な相互作用は、より軽量のモバイルネットワークを設計するために、標準の畳み込みネットワーク\ textit {i.e。}、Convnextの変換から派生しています。
新しく導入されたモバイル変調注意は、MHAでのメモリ集約型操作を削除し、効率的な変調メカニズムを採用して動的なグローバル表現能力を高めます。
Iformerがさまざまなタスクで既存の軽量ネットワークを上回ることを示す包括的な実験を実施します。
特に、Iformerは、Imagenet-1Kで80.4 \%の印象的なTOP-1精度を達成し、iPhone 13で1.10ミリ秒のレイテンシで、同様のレイテンシ制約の下で最近提案されたMobileNETV4を上回ります。
さらに、この方法では、COCOオブジェクトの検出、インスタンスセグメンテーション、ADE20Kセマンティックセグメンテーションなど、下流タスクの大幅な改善が示されており、これらのシナリオの高解像度入力のためにモバイルデバイスの低レイテンシを維持しています。

要約(オリジナル)

We present a new family of mobile hybrid vision networks, called iFormer, with a focus on optimizing latency and accuracy on mobile applications. iFormer effectively integrates the fast local representation capacity of convolution with the efficient global modeling ability of self-attention. The local interactions are derived from transforming a standard convolutional network, \textit{i.e.}, ConvNeXt, to design a more lightweight mobile network. Our newly introduced mobile modulation attention removes memory-intensive operations in MHA and employs an efficient modulation mechanism to boost dynamic global representational capacity. We conduct comprehensive experiments demonstrating that iFormer outperforms existing lightweight networks across various tasks. Notably, iFormer achieves an impressive Top-1 accuracy of 80.4\% on ImageNet-1k with a latency of only 1.10 ms on an iPhone 13, surpassing the recently proposed MobileNetV4 under similar latency constraints. Additionally, our method shows significant improvements in downstream tasks, including COCO object detection, instance segmentation, and ADE20k semantic segmentation, while still maintaining low latency on mobile devices for high-resolution inputs in these scenarios.

arxiv情報

著者 Chuanyang Zheng
発行日 2025-02-17 15:09:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク