DiSparse: Disentangled Sparsification for Multitask Model Compression

要約

モデル圧縮やマルチタスク学習が盛んであるにもかかわらず,マルチタスクモデルを効果的に圧縮する方法は,パラメータ空間におけるタスクの絡み合いが困難であるため,あまり十分に分析されてこなかった.本論文では、簡単で効果的、かつ世界で初めてのマルチタスク刈り込みとスパース学習スキームであるDiSparseを提案する。DiSparseでは、重要度測定を分離することで各タスクを独立に考慮し、パラメータ刈り込みと選択を行う際に全タスクの一致した決定を行う。実験結果は、一般的なスパース学習・刈り込み手法と比較して、様々な構成や設定において優れた性能を発揮することを示している。DiSparseは、圧縮の有効性に加えて、マルチタスク学習コミュニティにも強力なツールを提供します。驚くべきことに、DiSparseによって強制される高いモデルスパース性にもかかわらず、いくつかのケースでは、専用のマルチタスク学習手法よりも優れた性能を観測しました。DiSparseで生成された刈り込みマスクを分析したところ、学習開始前から各タスクで識別されるスパースネットワークアーキテクチャが驚くほど類似していることが確認されました。また、タスクの関連性が急激に低下する「分水嶺」層の存在を観測し、パラメータの共有を継続してもメリットがないことを示唆した。我々のコードとモデルは、https://github.com/SHI-Labs/DiSparse-Multitask-Model-Compression で公開される予定です。

要約(オリジナル)

Despite the popularity of Model Compression and Multitask Learning, how to effectively compress a multitask model has been less thoroughly analyzed due to the challenging entanglement of tasks in the parameter space. In this paper, we propose DiSparse, a simple, effective, and first-of-its-kind multitask pruning and sparse training scheme. We consider each task independently by disentangling the importance measurement and take the unanimous decisions among all tasks when performing parameter pruning and selection. Our experimental results demonstrate superior performance on various configurations and settings compared to popular sparse training and pruning methods. Besides the effectiveness in compression, DiSparse also provides a powerful tool to the multitask learning community. Surprisingly, we even observed better performance than some dedicated multitask learning methods in several cases despite the high model sparsity enforced by DiSparse. We analyzed the pruning masks generated with DiSparse and observed strikingly similar sparse network architecture identified by each task even before the training starts. We also observe the existence of a ‘watershed’ layer where the task relatedness sharply drops, implying no benefits in continued parameters sharing. Our code and models will be available at: https://github.com/SHI-Labs/DiSparse-Multitask-Model-Compression.

arxiv情報

著者 Xinglong Sun,Ali Hassani,Zhangyang Wang,Gao Huang,Humphrey Shi
発行日 2022-06-09 17:57:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク