GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous Structured Pruning for Vision Transformer

要約

最近提案されたビジョン トランスフォーマー (ViT) は、さまざまなコンピューター ビジョン タスクで非常に印象的な経験的パフォーマンスを示しており、重要なタイプの基礎モデルと見なされています。
ただし、ViT は通常、大規模なサイズで構築されるため、多くの実用的なリソースに制約のあるアプリケーションでの潜在的な展開が大幅に妨げられます。
この困難な問題を軽減するために、構造化プルーニングは、モデル サイズを圧縮し、実用的な効率を実現する有望なソリューションです。
ただし、CNN や RNN で現在人気があるのとは異なり、ViT モデルの構造化プルーニングはほとんど検討されていません。
この論文では、ViTモデルのグラフと最適化ベースの構造化プルーニングの統合フレームワークであるGOHSPを提案します。
最初に、注目の頭の重要性を測定するためのグラフベースのランキングを開発し、抽出された重要性情報を最適化ベースの手順にさらに統合して、ViT モデルに異種の構造化スパース パターンを課します。
実験結果は、提案した GOHSP が優れた圧縮性能を示すことを示しています。
CIFAR-10 データセットでは、このアプローチにより、ViT-Small モデルの精度を損なうことなく、パラメータを 40% 削減できます。
ImageNet データセットでは、DeiT-Tiny モデルと DeiT-Small モデルのスパーシティ比が 30% と 35% で、このアプローチは既存の構造化プルーニング手法よりもそれぞれ 1.65% と 0.76% の精度向上を達成します。

要約(オリジナル)

The recently proposed Vision transformers (ViTs) have shown very impressive empirical performance in various computer vision tasks, and they are viewed as an important type of foundation model. However, ViTs are typically constructed with large-scale sizes, which then severely hinder their potential deployment in many practical resources-constrained applications. To mitigate this challenging problem, structured pruning is a promising solution to compress model size and enable practical efficiency. However, unlike its current popularity for CNNs and RNNs, structured pruning for ViT models is little explored. In this paper, we propose GOHSP, a unified framework of Graph and Optimization-based Structured Pruning for ViT models. We first develop a graph-based ranking for measuring the importance of attention heads, and the extracted importance information is further integrated to an optimization-based procedure to impose the heterogeneous structured sparsity patterns on the ViT models. Experimental results show that our proposed GOHSP demonstrates excellent compression performance. On CIFAR-10 dataset, our approach can bring 40% parameters reduction with no accuracy loss for ViT-Small model. On ImageNet dataset, with 30% and 35% sparsity ratio for DeiT-Tiny and DeiT-Small models, our approach achieves 1.65% and 0.76% accuracy increase over the existing structured pruning methods, respectively.

arxiv情報

著者 Miao Yin,Burak Uzkent,Yilin Shen,Hongxia Jin,Bo Yuan
発行日 2023-01-13 00:40:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク