Making Models Shallow Again: Jointly Learning to Reduce Non-Linearity and Depth for Latency-Efficient Private Inference

要約

タイトル:Making Models Shallow Again: Jointly Learning to Reduce Non-Linearity and Depth for Latency-Efficient Private Inference

要約:

– 深層ニューラルネットワークの多数のReLUとMAC演算は、レイテンシと計算効率の低下に向いていない。
– 本研究では、モデルが浅くなるように学習するモデル最適化手法を提案する。
– 特に、畳み込みブロックのReLU感度を利用して、ReLUレイヤーを削除し、前処理、後続の畳み込み層を浅いブロックに統合する。
– 既存のReLU削減方法とは異なり、当社の共同削減方法は、ReLUsと線形演算の両方の削減を改善するモデルを生成でき、ResNet18を用いたCIFAR-100での評価において、精度低下がないまま、ReLUsについては最大1.73倍、線形操作については最大1.47倍改善することができる。

要約(オリジナル)

Large number of ReLU and MAC operations of Deep neural networks make them ill-suited for latency and compute-efficient private inference. In this paper, we present a model optimization method that allows a model to learn to be shallow. In particular, we leverage the ReLU sensitivity of a convolutional block to remove a ReLU layer and merge its succeeding and preceding convolution layers to a shallow block. Unlike existing ReLU reduction methods, our joint reduction method can yield models with improved reduction of both ReLUs and linear operations by up to 1.73x and 1.47x, respectively, evaluated with ResNet18 on CIFAR-100 without any significant accuracy-drop.

arxiv情報

著者 Souvik Kundu,Yuke Zhang,Dake Chen,Peter A. Beerel
発行日 2023-04-26 04:23:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CR, cs.LG パーマリンク