要約
本論文では、視覚データの空間的スパース性を利用した、モデル加速のための新しいアプローチを紹介する。我々は、ビジョンTransformersにおける最終的な予測は、最も情報量の多いトークンのサブセットに基づくだけであり、正確な画像認識には十分であることを観察する。この観察に基づき、我々は、ビジョントランスフォーマーを加速するために、入力に基づいて冗長なトークンを段階的かつ動的に刈り取る動的トークンスパース化フレームワークを提案する。具体的には、現在の特徴量から各トークンの重要度スコアを推定する軽量な予測モジュールを考案する。このモジュールを異なる層に追加することで、冗長なトークンを階層的に刈り込んでいく。このフレームワークは、ビジョントランスフォーマーにおける疎な注意の観察から着想を得ているが、適応的で非対称な計算の考え方は、様々なアーキテクチャを高速化するための一般的なソリューションになり得ることがわかった。我々は、CNNや階層型ビジョントランスフォーマーを含む階層型モデルや、構造化された特徴マップを必要とするより複雑な高密度予測タスクに我々の方法を拡張し、異なる空間位置に対する漸進的なスパース化と非対称計算を備えたより一般的な動的空間スパース化フレームワークを定式化する。情報量の少ない特徴には軽量な高速パスを適用し、より重要な場所には表現力の高い低速パスを使用することで、全体の計算量を大幅に削減しつつ、特徴マップの構造を維持することができる。広範な実験により、様々な最新アーキテクチャと異なる視覚認識タスクにおいて、本フレームワークの有効性が実証された。この結果は、動的空間スパース化がモデル高速化のための新しい効果的な次元を提供することを明確に示している。コードは https://github.com/raoyongming/DynamicViT で入手可能です。
要約(オリジナル)
In this paper, we present a new approach for model acceleration by exploiting spatial sparsity in visual data. We observe that the final prediction in vision Transformers is only based on a subset of the most informative tokens, which is sufficient for accurate image recognition. Based on this observation, we propose a dynamic token sparsification framework to prune redundant tokens progressively and dynamically based on the input to accelerate vision Transformers. Specifically, we devise a lightweight prediction module to estimate the importance score of each token given the current features. The module is added to different layers to prune redundant tokens hierarchically. While the framework is inspired by our observation of the sparse attention in vision Transformers, we find the idea of adaptive and asymmetric computation can be a general solution for accelerating various architectures. We extend our method to hierarchical models including CNNs and hierarchical vision Transformers as well as more complex dense prediction tasks that require structured feature maps by formulating a more generic dynamic spatial sparsification framework with progressive sparsification and asymmetric computation for different spatial locations. By applying lightweight fast paths to less informative features and using more expressive slow paths to more important locations, we can maintain the structure of feature maps while significantly reducing the overall computations. Extensive experiments demonstrate the effectiveness of our framework on various modern architectures and different visual recognition tasks. Our results clearly demonstrate that dynamic spatial sparsification offers a new and more effective dimension for model acceleration. Code is available at https://github.com/raoyongming/DynamicViT
arxiv情報
著者 | Yongming Rao,Zuyan Liu,Wenliang Zhao,Jie Zhou,Jiwen Lu |
発行日 | 2023-06-02 13:50:01+00:00 |
arxivサイト | arxiv_id(pdf) |