Training-Free Acceleration of ViTs with Delayed Spatial Merging

要約

トークンのマージは、再トレーニングや微調整を行わずにビジョン トランスフォーマー (ViT) の推論を高速化できる新しいパラダイムとして登場しました。
ViT におけるトレーニング不要のアクセラレーションの最前線を推進するために、1) アクティベーション外れ値と 2) 階層表現の観点を追加することでトークンのマージを改善します。
ViT における注意の動作を注意深く分析することにより、ViT の下部ブロックでのトークンのマージが望ましくない、収束注意現象の開始の遅れを特徴付けます。
さらに、階層的な処理スキームを使用してトークンのマージを強化し、ビジュアル トークン間のマルチスケールの冗長性をキャプチャします。
これら 2 つの洞察を組み合わせて、DSM (Delayed Spatial Merging) と呼ばれる統合推論フレームワークを構築します。
当社は、さまざまな ViT モデル スケール (極小から巨大まで) およびタスク (ImageNet-1k および転移学習) で DSM を広範囲に評価し、無視できる損失で最大 1.8$\times$ の FLOP 削減と 1.6$\times$ のスループット高速化を達成しています。
既存の方法よりも桁違いに高速です。

要約(オリジナル)

Token merging has emerged as a new paradigm that can accelerate the inference of Vision Transformers (ViTs) without any retraining or fine-tuning. To push the frontier of training-free acceleration in ViTs, we improve token merging by adding the perspectives of 1) activation outliers and 2) hierarchical representations. Through a careful analysis of the attention behavior in ViTs, we characterize a delayed onset of the convergent attention phenomenon, which makes token merging undesirable in the bottom blocks of ViTs. Moreover, we augment token merging with a hierarchical processing scheme to capture multi-scale redundancy between visual tokens. Combining these two insights, we build a unified inference framework called DSM: Delayed Spatial Merging. We extensively evaluate DSM on various ViT model scales (Tiny to Huge) and tasks (ImageNet-1k and transfer learning), achieving up to 1.8$\times$ FLOP reduction and 1.6$\times$ throughput speedup at a negligible loss while being two orders of magnitude faster than existing methods.

arxiv情報

著者 Jung Hwan Heo,Seyedarmin Azizi,Arash Fayyazi,Massoud Pedram
発行日 2024-07-01 10:16:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク