Performance-aware Approximation of Global Channel Pruning for Multitask CNNs

要約

グローバル チャネル プルーニング (GCP) は、パフォーマンスを損なうことなく、ディープ モデルからさまざまなレイヤーにまたがるチャネルのサブセット (フィルター) を削除することを目的としています。
以前の作業は、単一タスク モデルのプルーニングまたは単にマルチタスク シナリオへの適応のいずれかに焦点を当てていましたが、マルチタスクのプルーニングを処理する際には、依然として次の問題に直面しています。
カテゴリに依存する情報を抽出し、他のタスクに役立つ可能性のあるフィルターをバックボーンの剪定段階で剪定します。
2) マルチタスク予測の場合、レイヤー内またはレイヤー間のさまざまなフィルターは、単一タスク予測の場合よりも密接に関連し、相互作用するため、マルチタスクの刈り込みがより困難になります。
したがって、マルチタスク モデルの圧縮を目指して、Performance-Aware Global Channel Pruning (PAGCP) フレームワークを提案します。
最初に、層内および層間からのフィルターの共同顕著性を考慮することにより、優れた GCP を達成するための目的を理論的に提示します。
次に、目的を最適化するために、順次貪欲なプルーニング戦略が提案されます。ここでは、各タスクに対するフィルターの感度を評価し、グローバルに最もタスクに関連するフィルターを保持するために、パフォーマンスを意識したオラクル基準が開発されます。
いくつかのマルチタスク データセットでの実験では、提案された PAGCP が FLOP とパラメーターを 60% 以上削減でき、パフォーマンスがわずかに低下し、クラウド プラットフォームとモバイル プラットフォームの両方で 1.2x$\sim$3.3x の加速が達成されることが示されています。

要約(オリジナル)

Global channel pruning (GCP) aims to remove a subset of channels (filters) across different layers from a deep model without hurting the performance. Previous works focus on either single task model pruning or simply adapting it to multitask scenario, and still face the following problems when handling multitask pruning: 1) Due to the task mismatch, a well-pruned backbone for classification task focuses on preserving filters that can extract category-sensitive information, causing filters that may be useful for other tasks to be pruned during the backbone pruning stage; 2) For multitask predictions, different filters within or between layers are more closely related and interacted than that for single task prediction, making multitask pruning more difficult. Therefore, aiming at multitask model compression, we propose a Performance-Aware Global Channel Pruning (PAGCP) framework. We first theoretically present the objective for achieving superior GCP, by considering the joint saliency of filters from intra- and inter-layers. Then a sequentially greedy pruning strategy is proposed to optimize the objective, where a performance-aware oracle criterion is developed to evaluate sensitivity of filters to each task and preserve the globally most task-related filters. Experiments on several multitask datasets show that the proposed PAGCP can reduce the FLOPs and parameters by over 60% with minor performance drop, and achieves 1.2x$\sim$3.3x acceleration on both cloud and mobile platforms.

arxiv情報

著者 Hancheng Ye,Bo Zhang,Tao Chen,Jiayuan Fan,Bin Wang
発行日 2023-03-21 15:15:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク