Next-ViT: Next Generation Vision Transformer for Efficient Deployment in Realistic Industrial Scenarios

要約

複雑なアテンション メカニズムとモデル設計のため、既存のほとんどのビジョン トランスフォーマー (ViT) は、現実的な産業展開シナリオ (例:
TensorRT と CoreML。
これには明確な課題があります。ビジュアル ニューラル ネットワークは、CNN と同じくらい高速に推論し、ViT と同じくらい強力に機能するように設計できるでしょうか?
最近の研究では、この問題に対処するために CNN-Transformer ハイブリッド アーキテクチャを設計しようとしましたが、これらの研究の全体的なパフォーマンスは満足のいくものには程遠いものです。
これらを終わらせるために、現実的な産業シナリオで効率的に展開するための次世代ビジョン Transformer、つまり遅延/精度のトレードオフの観点から CNN と ViT の両方を支配する Next-ViT を提案します。
この作業では、Next Convolution Block (NCB) と Next Transformer Block (NTB) がそれぞれ開発され、展開しやすいメカニズムでローカル情報とグローバル情報を取得します。
次に、Next Hybrid Strategy (NHS) は、NCB と NTB を効率的なハイブリッド パラダイムにスタックするように設計されており、さまざまなダウンストリーム タスクのパフォーマンスを向上させます。
広範な実験により、Next-ViT は、さまざまなビジョン タスクにおけるレイテンシと精度のトレードオフに関して、既存の CNN、ViT、および CNN-Transformer ハイブリッド アーキテクチャよりも大幅に優れていることが示されています。
TensorRT では、Next-ViT は、COCO 検出で ResNet を 5.5 mAP (40.4 から 45.9 へ)、ADE20K セグメンテーションで 7.7% mIoU (38.8% から 46.5% へ) で、同様のレイテンシーで上回っています。
一方、CSWin と同等のパフォーマンスを実現し、推論速度は 3.6 倍高速化されています。
CoreML では、Next-ViT は COCO 検出で 4.6 mAP (42.6 から 47.2)、ADE20K セグメンテーションで 3.5% mIoU (45.1% から 48.6%) で EfficientFormer を上回り、同様のレイテンシーでした。
私たちのコードとモデルは、https://github.com/bytedance/Next-ViT で公開されています。

要約(オリジナル)

Due to the complex attention mechanisms and model design, most existing vision Transformers (ViTs) can not perform as efficiently as convolutional neural networks (CNNs) in realistic industrial deployment scenarios, e.g. TensorRT and CoreML. This poses a distinct challenge: Can a visual neural network be designed to infer as fast as CNNs and perform as powerful as ViTs? Recent works have tried to design CNN-Transformer hybrid architectures to address this issue, yet the overall performance of these works is far away from satisfactory. To end these, we propose a next generation vision Transformer for efficient deployment in realistic industrial scenarios, namely Next-ViT, which dominates both CNNs and ViTs from the perspective of latency/accuracy trade-off. In this work, the Next Convolution Block (NCB) and Next Transformer Block (NTB) are respectively developed to capture local and global information with deployment-friendly mechanisms. Then, Next Hybrid Strategy (NHS) is designed to stack NCB and NTB in an efficient hybrid paradigm, which boosts performance in various downstream tasks. Extensive experiments show that Next-ViT significantly outperforms existing CNNs, ViTs and CNN-Transformer hybrid architectures with respect to the latency/accuracy trade-off across various vision tasks. On TensorRT, Next-ViT surpasses ResNet by 5.5 mAP (from 40.4 to 45.9) on COCO detection and 7.7% mIoU (from 38.8% to 46.5%) on ADE20K segmentation under similar latency. Meanwhile, it achieves comparable performance with CSWin, while the inference speed is accelerated by 3.6x. On CoreML, Next-ViT surpasses EfficientFormer by 4.6 mAP (from 42.6 to 47.2) on COCO detection and 3.5% mIoU (from 45.1% to 48.6%) on ADE20K segmentation under similar latency. Our code and models are made public at: https://github.com/bytedance/Next-ViT

arxiv情報

著者 Jiashi Li,Xin Xia,Wei Li,Huixia Li,Xing Wang,Xuefeng Xiao,Rui Wang,Min Zheng,Xin Pan
発行日 2022-08-16 10:16:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク