MoPE-CLIP: Structured Pruning for Efficient Vision-Language Models with Module-wise Pruning Error Metric

要約

ビジョン言語の事前トレーニング済みモデルは、さまざまな下流タスクで優れたパフォーマンスを達成しました。
ただし、モデル サイズが大きいため、計算リソースが限られたプラットフォームでの利用が妨げられます。
より小さな事前トレーニング済みモデルを直接使用し、CLIP モデルに大きさに基づいた枝刈りを適用すると、柔軟性がなくなり、パフォーマンスが低下することがわかりました。
VLP 圧縮に対する最近の取り組みでは、パフォーマンスが制限されるユニモーダル圧縮メトリクスを採用するか、学習可能なマスクを使用したコストのかかるマスク検索プロセスが必要になります。
このペーパーでは、まず、クロスモーダル タスクでのパフォーマンス低下によって CLIP モジュールの重要性を正確に評価する、Module-wise Pruning Error (MoPE) メトリクスを提案します。
MoPE メトリクスを使用して、事前トレーニングとタスク固有の微調整圧縮ステージの両方に適用できる統合プルーニング フレームワークを導入します。
事前トレーニングでは、MoPE-CLIP は教師モデルからの知識を効果的に活用し、強力なゼロショット機能を維持しながら事前トレーニングのコストを大幅に削減します。
微調整の場合、幅から深さまで連続的に枝刈りを行うことで、競争力の高いタスク固有のモデルが得られます。
2 段階にわたる広範な実験により、MoPE メトリックの有効性が実証され、MoPE-CLIP は以前の最先端の VLP 圧縮方法を上回りました。

要約(オリジナル)

Vision-language pre-trained models have achieved impressive performance on various downstream tasks. However, their large model sizes hinder their utilization on platforms with limited computational resources. We find that directly using smaller pre-trained models and applying magnitude-based pruning on CLIP models leads to inflexibility and inferior performance. Recent efforts for VLP compression either adopt uni-modal compression metrics resulting in limited performance or involve costly mask-search processes with learnable masks. In this paper, we first propose the Module-wise Pruning Error (MoPE) metric, accurately assessing CLIP module importance by performance decline on cross-modal tasks. Using the MoPE metric, we introduce a unified pruning framework applicable to both pre-training and task-specific fine-tuning compression stages. For pre-training, MoPE-CLIP effectively leverages knowledge from the teacher model, significantly reducing pre-training costs while maintaining strong zero-shot capabilities. For fine-tuning, consecutive pruning from width to depth yields highly competitive task-specific models. Extensive experiments in two stages demonstrate the effectiveness of the MoPE metric, and MoPE-CLIP outperforms previous state-of-the-art VLP compression methods.

arxiv情報

著者 Haokun Lin,Haoli Bai,Zhili Liu,Lu Hou,Muyi Sun,Linqi Song,Ying Wei,Zhenan Sun
発行日 2024-03-12 17:24:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.MM パーマリンク