REx: Data-Free Residual Quantization Error Expansion

要約

ディープ ニューラル ネットワーク (DNN) は、コンピューター ビジョンと自然言語処理の分野で広く使用されていますが、推論コストが高いという問題があります。
この問題は、浮動小数点演算をより低いビット幅の形式に変換する量子化によって対処できます。
プライバシー権に関する懸念が高まる中、当社はデータフリーの方法に注力しています。
ただし、ハードウェアは通常、特定のビット幅しかサポートしないため、このような手法はターゲット デバイスへの適応性に欠けるという欠点があります。
したがって、さまざまなデバイスに適応するために、量子化方法は十分に柔軟で、優れた精度と精度を見つける必要があります。
すべてのビット幅とターゲット デバイスの速度のトレードオフ。
これを達成するために、REx を提案します。REx は、残差エラー拡張を活用する量子化方法であり、グループのスパース性と並列化を向上させるためのアンサンブル近似も使用します。
REx は強力な理論的保証によって支えられており、ベンチマーク対象のすべてのアプリケーション (ビジョンから NLP タスクまで)、アーキテクチャ (ConvNets、トランスフォーマー)、およびビット幅 (int8 から 3 値量子化まで) で優れたパフォーマンスを実現します。

要約(オリジナル)

Deep neural networks (DNNs) are ubiquitous in computer vision and natural language processing, but suffer from high inference cost. This problem can be addressed by quantization, which consists in converting floating point operations into a lower bit-width format. With the growing concerns on privacy rights, we focus our efforts on data-free methods. However, such techniques suffer from their lack of adaptability to the target devices, as a hardware typically only support specific bit widths. Thus, to adapt to a variety of devices, a quantization method shall be flexible enough to find good accuracy v.s. speed trade-offs for every bit width and target device. To achieve this, we propose REx, a quantization method that leverages residual error expansion, along with group sparsity and an ensemble approximation for better parallelization. REx is backed off by strong theoretical guarantees and achieves superior performance on every benchmarked application (from vision to NLP tasks), architecture (ConvNets, transformers) and bit-width (from int8 to ternary quantization).

arxiv情報

著者 Edouard Yvinec,Arnaud Dapgony,Matthieu Cord,Kevin Bailly
発行日 2023-01-20 15:03:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク