Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial Scenarios

要約

複雑な注意のメカニズムとモデル設計のため、既存のほとんどのVision Transformer(ViTs)は、TensorRTやCoreMLなどの現実的な産業展開シナリオにおいて、畳み込みニューラルネットワーク(CNN)と同等の効率的なパフォーマンスを発揮することはできません。このことは、明確な課題を提起しています。視覚的ニューラルネットワークは、CNNと同じくらい速く推論し、ViTと同じくらい強力に動作するように設計できるのだろうか?最近の研究では、この問題に対処するためにCNN-Transformerハイブリッドアーキテクチャの設計が試みられているが、これらの作品の全体的な性能は満足のいくものとは程遠い。これらを終わらせるために、我々は現実的な産業シナリオに効率的に展開するための次世代ビジョントランスフォーマー、すなわち、レイテンシ/精度のトレードオフの観点からCNNとViTの両方を支配するNext-ViTを提案する。本研究では、Next Convolution Block (NCB) とNext Transformer Block (NTB) をそれぞれ開発し、展開に適した機構で局所情報と全体情報を捕捉する。そして、Next Hybrid Strategy (NHS)は、NCBとNTBを効率的なハイブリッドパラダイムで重ね、様々な下流タスクの性能を向上させるように設計されています。広範な実験により、Next-ViTは既存のCNN、ViT、CNN-Transformerハイブリッドアーキテクチャを、様々なビジョンタスクにおける遅延/精度のトレードオフに関して著しく凌駕していることが示されました。TensorRTでは、Next-ViTは、COCO検出で5.5 mAP(40.4 から45.9)、ADE20Kセグメンテーションで7.7 mIoU(38.8% から46.5%)を、同様のレイテンシでResNetを上回った。一方、CSWinと同等の性能を達成しつつ、推論速度を3.6倍に高速化しました。CoreMLでは、COCO検出で4.6 mAP (from 42.6 to 47.2) 、ADE20Kセグメンテーションで3.5 mIoU (from 45.1% to 48.6%) とEfficientFormerと同等の待ち時間で比較し、Next-ViTが優れていることがわかります。我々のコードとモデルは、https://github.com/bytedance/Next-ViT で公開されています。

要約(オリジナル)

Due to the complex attention mechanisms and model design, most existing vision Transformers (ViTs) can not perform as efficiently as convolutional neural networks (CNNs) in realistic industrial deployment scenarios, e.g. TensorRT and CoreML. This poses a distinct challenge: Can a visual neural network be designed to infer as fast as CNNs and perform as powerful as ViTs? Recent works have tried to design CNN-Transformer hybrid architectures to address this issue, yet the overall performance of these works is far away from satisfactory. To end these, we propose a next generation vision Transformer for efficient deployment in realistic industrial scenarios, namely Next-ViT, which dominates both CNNs and ViTs from the perspective of latency/accuracy trade-off. In this work, the Next Convolution Block (NCB) and Next Transformer Block (NTB) are respectively developed to capture local and global information with deployment-friendly mechanisms. Then, Next Hybrid Strategy (NHS) is designed to stack NCB and NTB in an efficient hybrid paradigm, which boosts performance in various downstream tasks. Extensive experiments show that Next-ViT significantly outperforms existing CNNs, ViTs and CNN-Transformer hybrid architectures with respect to the latency/accuracy trade-off across various vision tasks. On TensorRT, Next-ViT surpasses ResNet by 5.5 mAP (from 40.4 to 45.9) on COCO detection and 7.7% mIoU (from 38.8% to 46.5%) on ADE20K segmentation under similar latency. Meanwhile, it achieves comparable performance with CSWin, while the inference speed is accelerated by 3.6x. On CoreML, Next-ViT surpasses EfficientFormer by 4.6 mAP (from 42.6 to 47.2) on COCO detection and 3.5% mIoU (from 45.1% to 48.6%) on ADE20K segmentation under similar latency. Our code and models are made public at: https://github.com/bytedance/Next-ViT

arxiv情報

著者 Jiashi Li,Xin Xia,Wei Li,Huixia Li,Xing Wang,Xuefeng Xiao,Rui Wang,Min Zheng,Xin Pan
発行日 2022-08-08 13:26:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク