要約
実世界のデータには膨大な量のマルチモーダルな情報が含まれており、その中で視覚と言語が最も代表的な 2 つのモダリティです。
さらに、ますます重くなったモデル \textit{e}.\textit{g}.、Transformers がモデル圧縮に研究者の注目を集めています。
ただし、マルチモーダル モデル、特にビジョン言語の Transformers を圧縮する方法はまだ研究されていません。
この論文では、ユニバーサル Vision 言語の Transformer 圧縮フレームワークとして、\textbf{U}nified および \textbf{P}r\textbf{o}gressive \textbf{P}runing (\textbf{\emph{UPop}}) を提案します。
これには、1) 元のモデルから連続最適化空間内のマルチモーダル サブネットを統合的に検索する機能が組み込まれており、これにより、圧縮可能なモダリティと構造間の枝刈り率の自動割り当てが可能になります。
2) サブネットの検索と再トレーニングを段階的に実行します。これにより、検索と再トレーニングの間の収束が維持され、より高い圧縮率が達成されます。
さまざまなタスク、データセット、モデル アーキテクチャに関する実験により、提案された UPop フレームワークの有効性と多用途性が実証されています。
コードは https://github.com/sdc17/UPop で入手できます。
要約(オリジナル)
Real-world data contains a vast amount of multimodal information, among which vision and language are the two most representative modalities. Moreover, increasingly heavier models, \textit{e}.\textit{g}., Transformers, have attracted the attention of researchers to model compression. However, how to compress multimodal models, especially vison-language Transformers, is still under-explored. This paper proposes the \textbf{U}nified and \textbf{P}r\textbf{o}gressive \textbf{P}runing (\textbf{\emph{UPop}}) as a universal vison-language Transformer compression framework, which incorporates 1) unifiedly searching multimodal subnets in a continuous optimization space from the original model, which enables automatic assignment of pruning ratios among compressible modalities and structures; 2) progressively searching and retraining the subnet, which maintains convergence between the search and retrain to attain higher compression ratios. Experiments on various tasks, datasets, and model architectures demonstrate the effectiveness and versatility of the proposed UPop framework. The code is available at https://github.com/sdc17/UPop.
arxiv情報
| 著者 | Dachuan Shi,Chaofan Tao,Ying Jin,Zhendong Yang,Chun Yuan,Jiaqi Wang | 
| 発行日 | 2023-06-30 03:25:27+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
