Dynamic Spatial Sparsification for Efficient Vision Transformers and Convolutional Neural Networks

要約

本論文では、視覚データの空間的スパース性を利用したモデル加速のための新しいアプローチを紹介する。我々は、ビジョントランスフォーマーにおける最終的な予測は、最も情報量の多いトークンのサブセットに基づくだけで、正確な画像認識には十分であることを観察している。この観察に基づき、我々はVision Transformersを加速するために、入力に基づいて冗長なトークンを漸進的かつ動的に刈り込む動的トークンスパース化の枠組みを提案する。具体的には、現在の特徴量から各トークンの重要度スコアを推定する軽量な予測モジュールを考案する。このモジュールを異なる層に追加することで、冗長なトークンを階層的に刈り込んでいく。このフレームワークはビジョントランスフォーマーにおける疎な注意の観察に触発されたものであるが、適応的で非対称な計算の考え方は、様々なアーキテクチャを加速するための一般的なソリューションになり得ることがわかった。我々は、異なる空間位置に対して漸進的なスパース化と非対称計算を行う、より一般的な動的空間スパース化フレームワークを定式化することにより、CNNや階層的ビジョントランスを含む階層的モデルや、構造化特徴地図を必要とする、より複雑な高密度予測タスクに我々の方法を拡張する。情報量の少ない特徴には軽量な高速パスを適用し、より重要な場所には表現力の高い低速パスを用いることで、全体の計算量を大幅に削減しつつ、特徴マップの構造を維持することが可能である。広範な実験により、様々な最新アーキテクチャと異なる視覚認識タスクにおいて、我々のフレームワークの有効性が実証された。我々の結果は、動的空間スパース化がモデル高速化のための新しく効果的な次元を提供することを明確に示している。コードは https://github.com/raoyongming/DynamicViT で公開されています。

要約(オリジナル)

In this paper, we present a new approach for model acceleration by exploiting spatial sparsity in visual data. We observe that the final prediction in vision Transformers is only based on a subset of the most informative tokens, which is sufficient for accurate image recognition. Based on this observation, we propose a dynamic token sparsification framework to prune redundant tokens progressively and dynamically based on the input to accelerate vision Transformers. Specifically, we devise a lightweight prediction module to estimate the importance score of each token given the current features. The module is added to different layers to prune redundant tokens hierarchically. While the framework is inspired by our observation of the sparse attention in vision Transformers, we find the idea of adaptive and asymmetric computation can be a general solution for accelerating various architectures. We extend our method to hierarchical models including CNNs and hierarchical vision Transformers as well as more complex dense prediction tasks that require structured feature maps by formulating a more generic dynamic spatial sparsification framework with progressive sparsification and asymmetric computation for different spatial locations. By applying lightweight fast paths to less informative features and using more expressive slow paths to more important locations, we can maintain the structure of feature maps while significantly reducing the overall computations. Extensive experiments demonstrate the effectiveness of our framework on various modern architectures and different visual recognition tasks. Our results clearly demonstrate that dynamic spatial sparsification offers a new and more effective dimension for model acceleration. Code is available at https://github.com/raoyongming/DynamicViT

arxiv情報

著者 Yongming Rao,Zuyan Liu,Wenliang Zhao,Jie Zhou,Jiwen Lu
発行日 2022-07-04 17:00:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク