MULTIFLOW: Shifting Towards Task-Agnostic Vision-Language Pruning

要約

ビジョン言語モデル (VLM) は転移学習には優れていますが、パラメータが多いため計算コストが高くなります。
この問題に対処するには、モデルの枝刈りによってパラメータを削除することが実行可能な解決策です。
ただし、VLM の既存の手法はタスク固有であるため、対象となる新しいタスクごとにネットワークを最初からプルーニングする必要があります。
この研究では、タスクに依存しないビジョン言語プルーニング (TA-VLP) という新しい方向性を探求します。
事前トレーニングされた VLM が与えられた場合、目標は、複数の未知の下流タスクに転送できる、枝刈りされた一意の対応物を見つけることです。
この困難な設定では、事前トレーニングされたモデルにすでにエンコードされている転送可能な表現が保存すべき重要な要素となります。
したがって、我々は、TA-VLP のための最初の勾配のない枝刈りフレームワークであるマルチモーダル フロー 枝刈り (MULTIFLOW) を提案します。 (i) パラメータの重要性は、顕著性を組み込むことによって、その大きさと情報の流れの観点から表現されます。
それが接続するニューロンの。
(ii) 枝刈りは、事前トレーニング後の VLM パラメータの緊急 (マルチモーダル) 分布によって駆動されます。
TA-VLP のコンテキストで 8 つの最先端の枝刈りアルゴリズムのベンチマークを行い、2 つの VLM、3 つの視覚言語タスク、および 3 つの枝刈り率を実験します。
私たちの実験結果は、MULTIFLOW がほとんどのケースで最近の洗練された組み合わせの競合他社を上回り、TA-VLP への対処への道を開くことを示しています。
コードは https://github.com/FarinaMatteo/multiflow で公開されています。

要約(オリジナル)

While excellent in transfer learning, Vision-Language models (VLMs) come with high computational costs due to their large number of parameters. To address this issue, removing parameters via model pruning is a viable solution. However, existing techniques for VLMs are task-specific, and thus require pruning the network from scratch for each new task of interest. In this work, we explore a new direction: Task-Agnostic Vision-Language Pruning (TA-VLP). Given a pretrained VLM, the goal is to find a unique pruned counterpart transferable to multiple unknown downstream tasks. In this challenging setting, the transferable representations already encoded in the pretrained model are a key aspect to preserve. Thus, we propose Multimodal Flow Pruning (MULTIFLOW), a first, gradient-free, pruning framework for TA-VLP where: (i) the importance of a parameter is expressed in terms of its magnitude and its information flow, by incorporating the saliency of the neurons it connects; and (ii) pruning is driven by the emergent (multimodal) distribution of the VLM parameters after pretraining. We benchmark eight state-of-the-art pruning algorithms in the context of TA-VLP, experimenting with two VLMs, three vision-language tasks, and three pruning ratios. Our experimental results show that MULTIFLOW outperforms recent sophisticated, combinatorial competitors in the vast majority of the cases, paving the way towards addressing TA-VLP. The code is publicly available at https://github.com/FarinaMatteo/multiflow.

arxiv情報

著者 Matteo Farina,Massimiliano Mancini,Elia Cunegatti,Gaowen Liu,Giovanni Iacca,Elisa Ricci
発行日 2024-04-08 15:51:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク