要約
計算リソースの広範な必要性は、リソースに制約のあるデバイスに大規模なディープ ニューラル ネットワーク (DNN) を展開する際に大きな障害となります。
同時に、これらの DNN パラメータのかなりの数が冗長で無関係であることが研究によって実証されています。
このペーパーでは、DNN ハードウェア展開の課題を解決することを目的とした、構造化されたスパース ニューラル ネットワークを学習するための新しいアプローチを紹介します。
我々は、重み付きグループ疎包絡関数(WGSEF)と呼ばれる新しい正則化手法を開発し、疎包絡関数(SEF)を一般化し、ニューロングループを選択(または無効化)することで、冗長性を削減し、計算効率を向上させます。
この方法は、フィルタ、チャネル、フィルタ形状、層の深さ、単一パラメータ (非構造化) などのグループ定義を任意のハードウェアで指定できる適応性のおかげで、推論時間を高速化し、メモリ需要と電力消費を削減することを目指しています。
WGSEF のプロパティにより、トレーニング コンバージェンス時に達成される望ましいスパース性レベルの事前定義が可能になります。
冗長パラメータの場合、このアプローチはネットワーク精度の低下を無視できる程度に維持するか、精度の向上につながることもあります。
私たちの方法は、グループ変数の数に関連した最悪の場合の線形複雑さで、WGSEF 正則化子とその近似演算子を効率的に計算します。
近位勾配ベースの最適化手法を使用してモデルをトレーニングし、ニューラル ネットワーク損失と WGSEF を組み込んだ非凸最小化問題に取り組みます。
最後に、圧縮率、精度、推論レイテンシーの観点から、提案した方法の効率を実験して示します。
要約(オリジナル)
The extensive need for computational resources poses a significant obstacle to deploying large-scale Deep Neural Networks (DNN) on devices with constrained resources. At the same time, studies have demonstrated that a significant number of these DNN parameters are redundant and extraneous. In this paper, we introduce a novel approach for learning structured sparse neural networks, aimed at bridging the DNN hardware deployment challenges. We develop a novel regularization technique, termed Weighted Group Sparse Envelope Function (WGSEF), generalizing the Sparse Envelop Function (SEF), to select (or nullify) neuron groups, thereby reducing redundancy and enhancing computational efficiency. The method speeds up inference time and aims to reduce memory demand and power consumption, thanks to its adaptability which lets any hardware specify group definitions, such as filters, channels, filter shapes, layer depths, a single parameter (unstructured), etc. The properties of the WGSEF enable the pre-definition of a desired sparsity level to be achieved at the training convergence. In the case of redundant parameters, this approach maintains negligible network accuracy degradation or can even lead to improvements in accuracy. Our method efficiently computes the WGSEF regularizer and its proximal operator, in a worst-case linear complexity relative to the number of group variables. Employing a proximal-gradient-based optimization technique, to train the model, it tackles the non-convex minimization problem incorporating the neural network loss and the WGSEF. Finally, we experiment and illustrate the efficiency of our proposed method in terms of the compression ratio, accuracy, and inference latency.
arxiv情報
著者 | Yehonathan Refael,Iftach Arbel,Wasim Huleihel |
発行日 | 2024-08-09 12:46:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google