Joint Token Pruning and Squeezing Towards More Aggressive Compression of Vision Transformers

要約

タイトル:Vision Transformerのより攻撃的な圧縮のためのジョイントトークンプルーニングとスクイージング

要約:

– Vision Transformer(ViT)は最近様々なコンピュータビジョンのタスクで有望な結果を示しているが、高い計算コストが実用的な応用を制限している。
– 過去のアプローチでは、冗長なトークンを削除することで、性能と計算コストのトレードオフを良好に示してきた。
– しかしながら、プルーニング戦略によって引き起こされるエラーは、大幅な情報の損失につながり得るという問題がある。
– 引き続き、トークンによる性能への影響に関する定量的な実験が提供されるべきであると考えられている。
– この問題に対処するために、高い効率でVision Transformerを圧縮するための新しいジョイントトークンプルーニング&スクイージングモジュール(TPS)を提案する。
– TPSは、最初にプルーニングを採用して、予約およびプルーニングサブセットを取得します。
– 次に、TPSは、単方向の最近傍マッチングと類似性に基づくフュージング手法を用いて、プルーニングされたトークンの情報を部分的に予約されたトークンにスクイージングします。
– 状態-of-the-art方法と比較して、私たちのアプローチはすべてのトークンプルーニングの強度でそれらを上回ります。
– 特に、DeiT-tiny&smallの計算予算を35%に縮小する間、ImageNet分類におけるベースラインと比較して1%〜6%の精度向上を実現しました。
– 提案手法は、各トランスフォーマー上での実験によってその有効性を証明し、トークンプルーニング方針のエラーに対する私たちの高い堅牢性を証明する分析実験を行いました。

要約(オリジナル)

Although vision transformers (ViTs) have shown promising results in various computer vision tasks recently, their high computational cost limits their practical applications. Previous approaches that prune redundant tokens have demonstrated a good trade-off between performance and computation costs. Nevertheless, errors caused by pruning strategies can lead to significant information loss. Our quantitative experiments reveal that the impact of pruned tokens on performance should be noticeable. To address this issue, we propose a novel joint Token Pruning & Squeezing module (TPS) for compressing vision transformers with higher efficiency. Firstly, TPS adopts pruning to get the reserved and pruned subsets. Secondly, TPS squeezes the information of pruned tokens into partial reserved tokens via the unidirectional nearest-neighbor matching and similarity-based fusing steps. Compared to state-of-the-art methods, our approach outperforms them under all token pruning intensities. Especially while shrinking DeiT-tiny&small computational budgets to 35%, it improves the accuracy by 1%-6% compared with baselines on ImageNet classification. The proposed method can accelerate the throughput of DeiT-small beyond DeiT-tiny, while its accuracy surpasses DeiT-tiny by 4.78%. Experiments on various transformers demonstrate the effectiveness of our method, while analysis experiments prove our higher robustness to the errors of the token pruning policy. Code is available at https://github.com/megvii-research/TPS-CVPR2023.

arxiv情報

著者 Siyuan Wei,Tianzhu Ye,Shen Zhang,Yao Tang,Jiajun Liang
発行日 2023-04-21 02:59:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク