Rethinking Vision Transformers for MobileNet Size and Speed

要約

コンピューター ビジョン タスクにおけるビジョン トランスフォーマー (ViT) の成功により、最近の技術では、ViT のパフォーマンスと複雑さを最適化して、モバイル デバイスでの効率的な展開を可能にしようとしています。
アテンション メカニズムを高速化したり、非効率的な設計を改善したり、モバイルに適した軽量な畳み込みを組み込んでハイブリッド アーキテクチャを形成したりするために、複数のアプローチが提案されています。
ただし、ViT とその亜種は、軽量の CNN よりもレイテンシが高く、パラメーターがかなり多く、何年も前の MobileNet にも当てはまります。
実際には、リソースに制約のあるハードウェアに効率的にデプロイするには、レイテンシとサイズの両方が重要です。
この作業では、トランスフォーマー モデルを MobileNet と同程度の速度で実行し、同様のサイズを維持できるかという中心的な問題を調査します。
ViT の設計上の選択を再検討し、低レイテンシと高パラメータ効率を備えた改良されたスーパーネットを提案します。
さらに、レイテンシとパラメーターの数を同時に最適化することで効率的なアーキテクチャを見つけることができる、きめの細かい共同検索戦略を紹介します。
提案されたモデル EfficientFormerV2 は、MobileNetV2 および MobileNetV2$\times1.4$ よりも約 $4\%$ 高いトップ 1 精度を ImageNet-1K で達成し、同様のレイテンシーとパラメーターを備えています。
適切に設計および最適化されたビジョン トランスフォーマーが、MobileNet レベルのサイズと速度で高性能を達成できることを実証します。

要約(オリジナル)

With the success of Vision Transformers (ViTs) in computer vision tasks, recent arts try to optimize the performance and complexity of ViTs to enable efficient deployment on mobile devices. Multiple approaches are proposed to accelerate attention mechanism, improve inefficient designs, or incorporate mobile-friendly lightweight convolutions to form hybrid architectures. However, ViT and its variants still have higher latency or considerably more parameters than lightweight CNNs, even true for the years-old MobileNet. In practice, latency and size are both crucial for efficient deployment on resource-constraint hardware. In this work, we investigate a central question, can transformer models run as fast as MobileNet and maintain a similar size? We revisit the design choices of ViTs and propose an improved supernet with low latency and high parameter efficiency. We further introduce a fine-grained joint search strategy that can find efficient architectures by optimizing latency and number of parameters simultaneously. The proposed models, EfficientFormerV2, achieve about $4\%$ higher top-1 accuracy than MobileNetV2 and MobileNetV2$\times1.4$ on ImageNet-1K with similar latency and parameters. We demonstrate that properly designed and optimized vision transformers can achieve high performance with MobileNet-level size and speed.

arxiv情報

著者 Yanyu Li,Ju Hu,Yang Wen,Georgios Evangelidis,Kamyar Salahi,Yanzhi Wang,Sergey Tulyakov,Jian Ren
発行日 2022-12-15 18:59:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク