要約
ニューラル ネットワークがより深くなり、機能マップが大きくなるにつれて、外部メモリ (または DRAM) との限られた通信帯域幅と電力制約が、モバイル デバイスやエッジ デバイスでネットワーク推論を実装する際のボトルネックになります。
本稿では、ニューラルデータ圧縮法によって活性化を圧縮した、エンドツーエンドの微分可能帯域幅効率の良いニューラル推論法を提案する。
具体的には、対称指数ゴロム符号化を使用した活性化圧縮のための変換-量子化-エントロピー符号化パイプラインと、算術符号化のためのデータ依存のガウス エントロピー モデルを提案します。
既存のモデル量子化方法で最適化された画像圧縮の低レベル タスクは、最大 19 倍の帯域幅削減と 6.21 倍のエネルギー節約を達成できます。
要約(オリジナル)
With neural networks growing deeper and feature maps growing larger, limited communication bandwidth with external memory (or DRAM) and power constraints become a bottleneck in implementing network inference on mobile and edge devices. In this paper, we propose an end-to-end differentiable bandwidth efficient neural inference method with the activation compressed by neural data compression method. Specifically, we propose a transform-quantization-entropy coding pipeline for activation compression with symmetric exponential Golomb coding and a data-dependent Gaussian entropy model for arithmetic coding. Optimized with existing model quantization methods, low-level task of image compression can achieve up to 19x bandwidth reduction with 6.21x energy saving.
arxiv情報
著者 | Shanzhi Yin,Tongda Xu,Yongsheng Liang,Yuanyuan Wang,Yanghao Li,Yan Wang,Jingjing Liu |
発行日 | 2023-09-07 03:25:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google