要約
畳み込みニューラル ネットワーク (CNN) は、膨大な計算リソースを必要とすることで知られており、量子化はそれらを圧縮するための最良かつ最も一般的な方法の 1 つです。
アグレッシブな量子化 (つまり、4 ビット未満) は分類には適していますが、セマンティック セグメンテーションや深度推定などの画像から画像へのタスクではパフォーマンスが大幅に低下する可能性があります。
このホワイト ペーパーでは、Wavelet Compressed Convolution (WCC) を提案します。これは、最新のアーキテクチャの主な計算コストである点ごとの畳み込みと統合された高解像度アクティベーション マップ圧縮の新しいアプローチです。
この目的のために、画像圧縮での有効性で知られている、効率的でハードウェアに適した Haar ウェーブレット変換を使用し、圧縮された活性化マップで畳み込みを定義します。
高解像度入力の恩恵を受けるさまざまなタスクを試します。
WCC を軽い量子化と組み合わせることで、1 ~ 4 ビットの活性化量子化と同等の圧縮率を実現し、パフォーマンスの低下を比較的小さく、より適切に行います。
コードは https://github.com/BGUCompSci/WaveletCompressedConvolution で入手できます。
要約(オリジナル)
Convolutional Neural Networks (CNNs) are known for requiring extensive computational resources, and quantization is among the best and most common methods for compressing them. While aggressive quantization (i.e., less than 4-bits) performs well for classification, it may cause severe performance degradation in image-to-image tasks such as semantic segmentation and depth estimation. In this paper, we propose Wavelet Compressed Convolution (WCC) — a novel approach for high-resolution activation maps compression integrated with point-wise convolutions, which are the main computational cost of modern architectures. To this end, we use an efficient and hardware-friendly Haar-wavelet transform, known for its effectiveness in image compression, and define the convolution on the compressed activation map. We experiment with various tasks that benefit from high-resolution input. By combining WCC with light quantization, we achieve compression rates equivalent to 1-4bit activation quantization with relatively small and much more graceful degradation in performance. Our code is available at https://github.com/BGUCompSci/WaveletCompressedConvolution.
arxiv情報
著者 | Shahaf E. Finder,Yair Zohav,Maor Ashkenazi,Eran Treister |
発行日 | 2022-10-11 15:50:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google