TurboViT: Generating Fast Vision Transformers via Generative Architecture Search

要約

ビジョントランスフォーマーは、近年、さまざまな視覚認識タスクへの取り組みにおいて、前例のないレベルのパフォーマンスを示しています。
ただし、このようなネットワーク アーキテクチャのアーキテクチャと計算の複雑さにより、高スループット、低メモリ要件を持つ現実世界のアプリケーションに展開することが困難になっています。
そのため、最近では効率的なビジョントランスフォーマーアーキテクチャの設計に関する重要な研究が行われています。
この研究では、生成アーキテクチャ検索 (GAS) による高速ビジョン トランスフォーマー アーキテクチャ設計の生成を検討し、精度とアーキテクチャおよび計算効率の間の強力なバランスを実現します。
この生成アーキテクチャ検索プロセスを通じて、マスク ユニット アテンションと Q プーリング設計パターンを中心に生成される高効率の階層型ビジョン トランスフォーマー アーキテクチャ設計である TurboViT を作成します。
その結果、TurboViT アーキテクチャ設計は、アーキテクチャの計算複雑性の大幅な低減 (同じ精度を実現しながら、FasterViT-0 よりも 2.47$\time$ 小さい) と計算の複雑さ (MobileViT2-2.0 よりも FLOP の > 3.4$\time$ 削減、精度の 0.9% 向上) を実現します。
ImageNet-1K データセット上の同様の精度範囲内の他の 10 の最先端の効率的なビジョン トランスフォーマー ネットワーク アーキテクチャ設計と比較した場合。
さらに、TurboViT は、低遅延シナリオとバッチ処理シナリオの両方で強力な推論遅延とスループットを実証しました (低遅延シナリオでは FasterViT-0 と比較して、遅延が 3.21$\times$ 低く、スループットが >3.18$\times$ 高くなります)。
これらの有望な結果は、高スループット シナリオ向けの効率的な変圧器アーキテクチャ設計を生成するための生成アーキテクチャ検索の活用の有効性を示しています。

要約(オリジナル)

Vision transformers have shown unprecedented levels of performance in tackling various visual perception tasks in recent years. However, the architectural and computational complexity of such network architectures have made them challenging to deploy in real-world applications with high-throughput, low-memory requirements. As such, there has been significant research recently on the design of efficient vision transformer architectures. In this study, we explore the generation of fast vision transformer architecture designs via generative architecture search (GAS) to achieve a strong balance between accuracy and architectural and computational efficiency. Through this generative architecture search process, we create TurboViT, a highly efficient hierarchical vision transformer architecture design that is generated around mask unit attention and Q-pooling design patterns. The resulting TurboViT architecture design achieves significantly lower architectural computational complexity (>2.47$\times$ smaller than FasterViT-0 while achieving same accuracy) and computational complexity (>3.4$\times$ fewer FLOPs and 0.9% higher accuracy than MobileViT2-2.0) when compared to 10 other state-of-the-art efficient vision transformer network architecture designs within a similar range of accuracy on the ImageNet-1K dataset. Furthermore, TurboViT demonstrated strong inference latency and throughput in both low-latency and batch processing scenarios (>3.21$\times$ lower latency and >3.18$\times$ higher throughput compared to FasterViT-0 for low-latency scenario). These promising results demonstrate the efficacy of leveraging generative architecture search for generating efficient transformer architecture designs for high-throughput scenarios.

arxiv情報

著者 Alexander Wong,Saad Abbasi,Saeejith Nair
発行日 2023-08-22 13:08:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク