要約
動的モデルプルーニングは、展開中に入力サンプルごとに異なるサブネットワークの推論を可能にする最近の方向性です。
ただし、現在の動的な方法は、スパース性の損失を誘発することにより、正則化を通じて連続チャネルゲーティングを学習することに依存しています。
この定式化により、さまざまな損失(タスク損失、正則化損失など)のバランスをとるのが複雑になります。
さらに、正則化ベースの方法には、計算バジェットを実現するための透過的なトレードオフハイパーパラメータ選択がありません。
私たちの貢献は2つあります:1)分離されたタスクと剪定トレーニング。
2)トレーニング前のFLOP削減推定を可能にする単純なハイパーパラメータ選択。
神経科学のヘッブの理論に触発されて:「一緒に発火するニューロンは一緒に配線する」、前の層の活性化に基づいて、層内のk個のフィルターを処理するマスクを予測することを提案します。
この問題は、自己監視型のバイナリ分類問題として提起されます。
各マスク予測モジュールは、現在のレイヤーの各フィルターの対数尤度が上位k個のアクティブ化されたフィルターに属するかどうかを予測するようにトレーニングされています。
値kは、ヒートマップの質量を使用した新しい基準に基づいて、入力ごとに動的に推定されます。
CIFARおよびImageNetデータセットでのVGG、ResNet、MobileNetなどのいくつかのニューラルアーキテクチャでの実験を示します。
CIFARでは、SOTAメソッドと同様の精度に達し、FLOPが15%および24%削減されます。
同様に、ImageNetでも、精度の低下が少なく、FLOPの削減が最大13%向上しています。
要約(オリジナル)
Dynamic model pruning is a recent direction that allows for the inference of a different sub-network for each input sample during deployment. However, current dynamic methods rely on learning a continuous channel gating through regularization by inducing sparsity loss. This formulation introduces complexity in balancing different losses (e.g task loss, regularization loss). In addition, regularization based methods lack transparent tradeoff hyperparameter selection to realize computational budget. Our contribution is two-fold: 1) decoupled task and pruning training. 2) Simple hyperparameter selection that enables FLOPs reduction estimation before training. Inspired by the Hebbian theory in Neuroscience: ‘neurons that fire together wire together’, we propose to predict a mask to process k filters in a layer based on the activation of its previous layer. We pose the problem as a self-supervised binary classification problem. Each mask predictor module is trained to predict if the log-likelihood for each filter in the current layer belongs to the top-k activated filters. The value k is dynamically estimated for each input based on a novel criterion using the mass of heatmaps. We show experiments on several neural architectures, such as VGG, ResNet and MobileNet on CIFAR and ImageNet datasets. On CIFAR, we reach similar accuracy to SOTA methods with 15% and 24% higher FLOPs reduction. Similarly in ImageNet, we achieve lower drop in accuracy with up to 13% improvement in FLOPs reduction.
arxiv情報
著者 | Sara Elkerdawy,Mostafa Elhoushi,Hong Zhang,Nilanjan Ray |
発行日 | 2022-06-28 17:01:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google