Dense Vision Transformer Compression with Few Samples

要約

少数ショット モデル圧縮は、(ラベルがなくても) わずかなトレーニング セットのみを使用して、大規模なモデルをよりコンパクトなモデルに圧縮することを目的としています。
ブロックレベルのプルーニングは、少数ショットの CNN 圧縮で高精度と低遅延を実現するための主要な技術として最近登場しました。
しかし、ビジョン トランスフォーマー (ViT) の数ショット圧縮についてはほとんど解明されていないため、新たな課題が生じています。
特に、スパース圧縮の問題は、異なるモデル サイズの非常に少数の圧縮モデルしか生成できない従来の CNN の少数ショット手法に存在します。
この論文では、DC-ViT と呼ばれる少数ショット ViT 圧縮のための新しいフレームワークを提案します。
DC-ViT は、ブロック全体を削除するのではなく、MLP モジュールの一部を保持して再利用しながら、アテンション モジュールを選択的に削除します。
DC-ViT は高密度圧縮を可能にし、モデルの複雑さの範囲を高密度に設定した多数の圧縮モデルを出力します。
DC-ViT は、最先端の少数ショット圧縮方式を 10 パーセント ポイントという大幅なマージンで上回っており、ViT およびそのバリアントの圧縮における遅延も短くなります。

要約(オリジナル)

Few-shot model compression aims to compress a large model into a more compact one with only a tiny training set (even without labels). Block-level pruning has recently emerged as a leading technique in achieving high accuracy and low latency in few-shot CNN compression. But, few-shot compression for Vision Transformers (ViT) remains largely unexplored, which presents a new challenge. In particular, the issue of sparse compression exists in traditional CNN few-shot methods, which can only produce very few compressed models of different model sizes. This paper proposes a novel framework for few-shot ViT compression named DC-ViT. Instead of dropping the entire block, DC-ViT selectively eliminates the attention module while retaining and reusing portions of the MLP module. DC-ViT enables dense compression, which outputs numerous compressed models that densely populate the range of model complexity. DC-ViT outperforms state-of-the-art few-shot compression methods by a significant margin of 10 percentage points, along with lower latency in the compression of ViT and its variants.

arxiv情報

著者 Hanxiao Zhang,Yifan Zhou,Guo-Hua Wang,Jianxin Wu
発行日 2024-03-27 15:56:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク