要約
Vision Transformer (ViT) やそのバリアントなどのアテンションベースのビジョン モデルは、さまざまなコンピューター ビジョン タスクで有望なパフォーマンスを示しています。
ただし、これらの新しいアーキテクチャはモデル サイズが大きく、計算コストが高いという問題があり、効率的なモデル圧縮ソリューションが必要です。
これまで、ViT の枝刈りについてはよく研究されてきましたが、CNN 圧縮に広く適用されてきた他の圧縮戦略 (モデル因数分解など) は、ViT 圧縮の文脈ではほとんど研究されていません。
この論文では、コンパクトな注意ベースのビジョン モデルを取得するためのツールセットを充実させるために、ビジョン トランスフォーマーを圧縮する効率的な方法を検討します。
マルチヘッド アテンション レイヤーに関する新しい洞察に基づいて、最先端のプルーニング手法を上回る高効率の ViT 圧縮ソリューションを開発します。
ImageNet 上で DeiT-small および DeiT-base モデルを圧縮する場合、私たちが提案するアプローチは、パラメーターが少ない場合でも、0.45% および 0.76% 高いトップ 1 精度を達成できます。
私たちの発見は、既存のものよりもはるかに高速なトレーニング (最大 $2.6\time$ の高速化) と低い追加ストレージ コスト (最大 $1927.5\time$ の削減) により、テキストから画像への拡散モデルのカスタマイズ効率の向上にも適用できます。
動作します。
要約(オリジナル)
Attention-based vision models, such as Vision Transformer (ViT) and its variants, have shown promising performance in various computer vision tasks. However, these emerging architectures suffer from large model sizes and high computational costs, calling for efficient model compression solutions. To date, pruning ViTs has been well studied, while other compression strategies that have been widely applied in CNN compression, e.g., model factorization, is little explored in the context of ViT compression. This paper explores an efficient method for compressing vision transformers to enrich the toolset for obtaining compact attention-based vision models. Based on the new insight on the multi-head attention layer, we develop a highly efficient ViT compression solution, which outperforms the state-of-the-art pruning methods. For compressing DeiT-small and DeiT-base models on ImageNet, our proposed approach can achieve 0.45% and 0.76% higher top-1 accuracy even with fewer parameters. Our finding can also be applied to improve the customization efficiency of text-to-image diffusion models, with much faster training (up to $2.6\times$ speedup) and lower extra storage cost (up to $1927.5\times$ reduction) than the existing works.
arxiv情報
著者 | Jinqi Xiao,Miao Yin,Yu Gong,Xiao Zang,Jian Ren,Bo Yuan |
発行日 | 2023-06-09 16:11:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google