要約
混合精度量子化は、限られたリソースのコンピューティング プラットフォーム上でディープ ニューラル ネットワーク (DNN) の実行を可能にする重要な技術となっています。
従来の量子化手法は主にニューラル ネットワークの精度を維持することに重点を置き、ネットワークの堅牢性に対する量子化の影響を無視するか、堅牢性を向上させるための経験的手法のみを使用していました。
対照的に、DNN の堅牢性について強力な保証を提供できる堅牢性認証の手法は、計算コストが高いため、量子化中には使用されていません。
このペーパーでは、平滑化された分類子のクリーンな精度を維持するだけでなく、認定された堅牢性も維持する革新的な混合精度量子化手法である ARQ を紹介します。
ARQ は、強化学習を使用して正確で堅牢な DNN 量子化を検出すると同時に、統計的 DNN 検証アルゴリズムの一般的なクラスであるランダム化スムージングを効率的に活用して、検索プロセスをガイドします。
ARQ を、量子化研究で一般的に使用されるいくつかの DNN アーキテクチャ (CIFAR-10 上の ResNet-20、ImageNet 上の ResNet-50、ImageNet 上の MobileNetV2) 上の複数の最先端の量子化技術と比較します。
ARQ は、すべてのベンチマークと入力摂動レベルにわたって、これらのベースラインよりも一貫して優れたパフォーマンスを発揮することを実証します。
多くの場合、ARQ 量子化ネットワークのパフォーマンスは、浮動小数点重みを使用した元の DNN のパフォーマンスに達しますが、命令はわずか 1.5% です。
要約(オリジナル)
Mixed precision quantization has become an important technique for enabling the execution of deep neural networks (DNNs) on limited resource computing platforms. Traditional quantization methods have primarily concentrated on maintaining neural network accuracy, either ignoring the impact of quantization on the robustness of the network, or using only empirical techniques for improving robustness. In contrast, techniques for robustness certification, which can provide strong guarantees about the robustness of DNNs have not been used during quantization due to their high computation cost. This paper introduces ARQ, an innovative mixed-precision quantization method that not only preserves the clean accuracy of the smoothed classifiers but also maintains their certified robustness. ARQ uses reinforcement learning to find accurate and robust DNN quantization, while efficiently leveraging randomized smoothing, a popular class of statistical DNN verification algorithms, to guide the search process. We compare ARQ with multiple state-of-the-art quantization techniques on several DNN architectures commonly used in quantization studies: ResNet-20 on CIFAR-10, ResNet-50 on ImageNet, and MobileNetV2 on ImageNet. We demonstrate that ARQ consistently performs better than these baselines across all the benchmarks and the input perturbation levels. In many cases, the performance of ARQ quantized networks can reach that of the original DNN with floating-point weights, but with only 1.5% instructions.
arxiv情報
著者 | Yuchen Yang,Shubham Ugare,Yifan Zhao,Gagandeep Singh,Sasa Misailovic |
発行日 | 2024-10-31 17:59:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google