要約
学習したデータ分布を使用してエントロピーコーデックを適用することにより、ニューラルコンプレッサーは圧縮率の点で従来のコーデックを大幅に上回りました。
ただし、ニューラルネットワークの高い推論遅延は、実際のアプリケーションでのニューラルコンプレッサーの展開を妨げます。
この作業では、整数のみの演算を備えた効率的なニューラルコンプレッサーである整数のみの離散フロー(IODF)を提案します。
私たちの仕事は、離散確率変数間の可逆変換で構成される整数離散フローに基づいています。
8ビット量子化に基づく整数のみの算術による効率的な可逆変換を提案します。
私たちの可逆変換には、推論中に冗長なフィルターを削除するための学習可能なバイナリゲートが装備されています。
GPUにTensorRTを使用してIODFをデプロイし、ImageNet32およびImageNet64で高い圧縮率を維持しながら、既存の最速のニューラルコンプレッサーと比較して10倍の推論速度を実現します。
要約(オリジナル)
By applying entropy codecs with learned data distributions, neural compressors have significantly outperformed traditional codecs in terms of compression ratio. However, the high inference latency of neural networks hinders the deployment of neural compressors in practical applications. In this work, we propose Integer-only Discrete Flows (IODF), an efficient neural compressor with integer-only arithmetic. Our work is built upon integer discrete flows, which consists of invertible transformations between discrete random variables. We propose efficient invertible transformations with integer-only arithmetic based on 8-bit quantization. Our invertible transformation is equipped with learnable binary gates to remove redundant filters during inference. We deploy IODF with TensorRT on GPUs, achieving 10x inference speedup compared to the fastest existing neural compressors, while retaining the high compression rates on ImageNet32 and ImageNet64.
arxiv情報
著者 | Siyu Wang,Jianfei Chen,Chongxuan Li,Jun Zhu,Bo Zhang |
発行日 | 2022-06-17 16:15:36+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google