要約
複雑な注意メカニズムとモデル設計のため、ほとんどの既存のビジョントランスフォーマー(ViT)は、現実的な産業展開シナリオで畳み込みニューラルネットワーク(CNN)ほど効率的に実行できません。
TensorRTとCoreML。
これには明確な課題があります。視覚ニューラルネットワークは、CNNと同じくらい速く推測し、ViTと同じくらい強力に機能するように設計できますか?
最近の作業では、この問題に対処するためにCNN-Transformerハイブリッドアーキテクチャを設計しようとしましたが、これらの作業の全体的なパフォーマンスは決して満足できるものではありません。
これらを終わらせるために、現実的な産業シナリオで効率的に展開するための次世代ビジョンTransformer、つまり遅延と精度のトレードオフの観点からCNNとViTの両方を支配するNext-ViTを提案します。
この作業では、Next Convolution Block(NCB)とNext Transformer Block(NTB)をそれぞれ開発して、展開に適したメカニズムでローカル情報とグローバル情報をキャプチャします。
次に、Next Hybrid Strategy(NHS)は、NCBとNTBを効率的なハイブリッドパラダイムにスタックするように設計されており、さまざまなダウンストリームタスクのパフォーマンスを向上させます。
広範な実験により、Next-ViTは、さまざまなビジョンタスク全体の遅延/精度のトレードオフに関して、既存のCNN、ViT、およびCNN-Transformerハイブリッドアーキテクチャを大幅に上回っています。
TensorRTでは、Next-ViTは、同様の遅延の下で、COCO検出で5.4 mAP(40.4から45.8)、ADE20Kセグメンテーションで8.2%mIoU(38.8%から47.0%)だけResNetを上回ります。
一方、CSWinと同等のパフォーマンスを実現し、推論速度は3.6倍高速化されます。
CoreMLでは、Next-ViTはEfficientFormerをCOCO検出で4.6 mAP(42.6から47.2)、同様の遅延でADE20Kセグメンテーションで3.5%mIoU(45.2%から48.7%)上回っています。
コードは最近リリースされます。
要約(オリジナル)
Due to the complex attention mechanisms and model design, most existing vision Transformers (ViTs) can not perform as efficiently as convolutional neural networks (CNNs) in realistic industrial deployment scenarios, e.g. TensorRT and CoreML. This poses a distinct challenge: Can a visual neural network be designed to infer as fast as CNNs and perform as powerful as ViTs? Recent works have tried to design CNN-Transformer hybrid architectures to address this issue, yet the overall performance of these works is far away from satisfactory. To end these, we propose a next generation vision Transformer for efficient deployment in realistic industrial scenarios, namely Next-ViT, which dominates both CNNs and ViTs from the perspective of latency/accuracy trade-off. In this work, the Next Convolution Block (NCB) and Next Transformer Block (NTB) are respectively developed to capture local and global information with deployment-friendly mechanisms. Then, Next Hybrid Strategy (NHS) is designed to stack NCB and NTB in an efficient hybrid paradigm, which boosts performance in various downstream tasks. Extensive experiments show that Next-ViT significantly outperforms existing CNNs, ViTs and CNN-Transformer hybrid architectures with respect to the latency/accuracy trade-off across various vision tasks. On TensorRT, Next-ViT surpasses ResNet by 5.4 mAP (from 40.4 to 45.8) on COCO detection and 8.2% mIoU (from 38.8% to 47.0%) on ADE20K segmentation under similar latency. Meanwhile, it achieves comparable performance with CSWin, while the inference speed is accelerated by 3.6x. On CoreML, Next-ViT surpasses EfficientFormer by 4.6 mAP (from 42.6 to 47.2) on COCO detection and 3.5% mIoU (from 45.2% to 48.7%) on ADE20K segmentation under similar latency. Code will be released recently.
arxiv情報
著者 | Jiashi Li,Xin Xia,Wei Li,Huixia Li,Xing Wang,Xuefeng Xiao,Rui Wang,Min Zheng,Xin Pan |
発行日 | 2022-07-12 12:50:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google