The Need for Speed: Pruning Transformers with One Recipe

要約

$\textbf{O}$ne-shot $\textbf{P}$runing $\textbf{T}$echnique for $\textbf{I}$ninterchangeable $\textbf{N}$etworks ($\textbf
{OPTIN}$) フレームワークは、事前トレーニングされたトランスフォーマー アーキテクチャ $\textit{再トレーニングを必要とせずに}$ の効率を高めるツールとして使用されます。
最近の研究では、変圧器の効率向上が検討されていますが、多くの場合、計算コストのかかる再トレーニング手順が発生したり、アーキテクチャ固有の特性に依存したりするため、実用的な大規模な採用が妨げられています。
これらの欠点に対処するために、OPTIN フレームワークは中間特徴抽出を利用して、モデル パラメーターの長期依存関係 (造語 $\textit{trajectory}$) をキャプチャし、自然言語、画像分類、
転移学習とセマンティック セグメンテーション タスク $\textit{再トレーニングなし}$。
FLOP 制約がある場合、OPTIN フレームワークは、競争力のある精度パフォーマンスと向上したスループットを維持しながらネットワークを圧縮します。
特に、競合する FLOP 削減での画像分類に関して、NLP ベースラインから $\leq 2$% 精度が低下し、最先端の手法から $0.5$% 向上することを示しています。
さらに、セマンティック セグメンテーションと CNN スタイルのネットワークに Mask2Former を使用して、タスクとアーキテクチャの一般化と比較パフォーマンスを示します。
OPTIN は、$\textit{re-training}$ を必要とせずに、さまざまなクラス ドメイン、特に自然言語や画像関連のタスクにわたってうまく一般化できる、変換アーキテクチャを圧縮するための最初のワンショット効率的なフレームワークの 1 つを提供します。

要約(オリジナル)

We introduce the $\textbf{O}$ne-shot $\textbf{P}$runing $\textbf{T}$echnique for $\textbf{I}$nterchangeable $\textbf{N}$etworks ($\textbf{OPTIN}$) framework as a tool to increase the efficiency of pre-trained transformer architectures $\textit{without requiring re-training}$. Recent works have explored improving transformer efficiency, however often incur computationally expensive re-training procedures or depend on architecture-specific characteristics, thus impeding practical wide-scale adoption. To address these shortcomings, the OPTIN framework leverages intermediate feature distillation, capturing the long-range dependencies of model parameters (coined $\textit{trajectory}$), to produce state-of-the-art results on natural language, image classification, transfer learning, and semantic segmentation tasks $\textit{without re-training}$. Given a FLOP constraint, the OPTIN framework will compress the network while maintaining competitive accuracy performance and improved throughput. Particularly, we show a $\leq 2$% accuracy degradation from NLP baselines and a $0.5$% improvement from state-of-the-art methods on image classification at competitive FLOPs reductions. We further demonstrate the generalization of tasks and architecture with comparative performance using Mask2Former for semantic segmentation and cnn-style networks. OPTIN presents one of the first one-shot efficient frameworks for compressing transformer architectures that generalizes well across different class domains, in particular: natural language and image-related tasks, without $\textit{re-training}$.

arxiv情報

著者 Samir Khaki,Konstantinos N. Plataniotis
発行日 2024-03-26 17:55:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク