(PASS) Visual Prompt Locates Good Structure Sparsity through a Recurrent HyperNetwork

要約

大規模なニューラル ネットワークは、膨大な計算リソースを犠牲にしながらも、視覚や言語処理などのさまざまな領域で顕著なパフォーマンスを実証してきました。
圧縮に関する文献で説明されているように、構造モデルの枝刈りは、加速に適したスパース パターンのおかげで、モデルの効率を促進する優れたアルゴリズムです。
構造的な枝刈りの重要な問題の 1 つは、チャネルの重要性をどのように推定するかです。
並行して、データ中心の AI に関する研究により、プロンプトベースの技術により、さまざまな下流タスクにわたって大規模な言語モデルを見事に一般化できることが示されています。
この論文では、\textit{視覚的なプロンプトを活用してチャネルの重要性を捉え、高品質の構造的疎性を導き出す}という魅力的な可能性を調査します。
この目的を達成するために、新しいアルゴリズム フレームワーク、つまり \texttt{PASS} を提案します。
これは、視覚的なプロンプトとネットワーク重み統計の両方を入力として受け取り、レイヤーごとのチャネル スパース性を反復的に出力するように調整されたハイパーネットワークです。
このような設計では、層間の固有のチャネル依存関係が考慮されます。
複数のネットワーク アーキテクチャと 6 つのデータセットにわたる包括的な実験により、適切な構造的疎性を特定する際の \texttt{PASS} の優位性が実証されました。
たとえば、同じ FLOP レベルでは、\texttt{PASS} サブネットワークは Food101 データセットで $1\%\sim 3\%$ 高い精度を達成します。
または、$80\%$ の精度の同様のパフォーマンスでは、\texttt{PASS} サブネットワークはベースラインよりも $0.35\times$ 高速化されます。

要約(オリジナル)

Large-scale neural networks have demonstrated remarkable performance in different domains like vision and language processing, although at the cost of massive computation resources. As illustrated by compression literature, structural model pruning is a prominent algorithm to encourage model efficiency, thanks to its acceleration-friendly sparsity patterns. One of the key questions of structural pruning is how to estimate the channel significance. In parallel, work on data-centric AI has shown that prompting-based techniques enable impressive generalization of large language models across diverse downstream tasks. In this paper, we investigate a charming possibility – \textit{leveraging visual prompts to capture the channel importance and derive high-quality structural sparsity}. To this end, we propose a novel algorithmic framework, namely \texttt{PASS}. It is a tailored hyper-network to take both visual prompts and network weight statistics as input, and output layer-wise channel sparsity in a recurrent manner. Such designs consider the intrinsic channel dependency between layers. Comprehensive experiments across multiple network architectures and six datasets demonstrate the superiority of \texttt{PASS} in locating good structural sparsity. For example, at the same FLOPs level, \texttt{PASS} subnetworks achieve $1\%\sim 3\%$ better accuracy on Food101 dataset; or with a similar performance of $80\%$ accuracy, \texttt{PASS} subnetworks obtain $0.35\times$ more speedup than the baselines.

arxiv情報

著者 Tianjin Huang,Fang Meng,Li Shen,Fan Liu,Yulong Pei,Mykola Pechenizkiy,Shiwei Liu,Tianlong Chen
発行日 2024-07-24 16:47:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク