要約
量子化は、過剰にパラメータ化されたディープ ニューラル モデルを圧縮し、リソースが限られたデバイスに展開する場合に重要です。
固定精度の量子化では、数値表現能力が限られているため、パフォーマンスが低下します。
逆に、混合精度量子化 (MPQ) は、レイヤーに異種のビット幅を割り当てることでモデルを効果的に圧縮するために推奨されています。
MPQ は通常、検索と再トレーニングの 2 段階のプロセスで構成されます。
この論文では、混合精度モデル圧縮のためのワンショット トレーニング検索パラダイムを考案します。
具体的には、第 1 段階では、すべての潜在的なビット幅構成が結合され、共有重みのセット内で同時に最適化されます。
しかし、私たちの観察により、最適化中に高度に結合された重み間でこれまで見たことのない深刻なビット幅干渉現象が明らかになり、高い圧縮率下では大幅なパフォーマンス低下につながります。
この問題に取り組むために、最初にビット幅スケジューラを設計して、トレーニング中に最も乱流な層のビット幅を動的にフリーズし、残りのビット幅が適切に収束するようにします。
次に、情報理論からインスピレーションを得て、パフォーマンスの悪いビット幅の動作をパフォーマンスの良いビット幅に合わせるための情報歪み緩和手法を紹介します。
第 2 段階では、追加のトレーニング コストを導入せずに構成の良さを評価するために、推論のみの貪欲検索スキームが考案されます。
3 つの代表的なモデルと 3 つのデータセットに対する広範な実験により、提案された方法の有効性が実証されました。
コードは \href{https://www.github.com/1hunters/retraining-free-quantization}{https://github.com/1hunters/retraining-free-quantization} で入手できます。
要約(オリジナル)
Quantization is of significance for compressing the over-parameterized deep neural models and deploying them on resource-limited devices. Fixed-precision quantization suffers from performance drop due to the limited numerical representation ability. Conversely, mixed-precision quantization (MPQ) is advocated to compress the model effectively by allocating heterogeneous bit-width for layers. MPQ is typically organized into a searching-retraining two-stage process. In this paper, we devise a one-shot training-searching paradigm for mixed-precision model compression. Specifically, in the first stage, all potential bit-width configurations are coupled and thus optimized simultaneously within a set of shared weights. However, our observations reveal a previously unseen and severe bit-width interference phenomenon among highly coupled weights during optimization, leading to considerable performance degradation under a high compression ratio. To tackle this problem, we first design a bit-width scheduler to dynamically freeze the most turbulent bit-width of layers during training, to ensure the rest bit-widths converged properly. Then, taking inspiration from information theory, we present an information distortion mitigation technique to align the behavior of the bad-performing bit-widths to the well-performing ones. In the second stage, an inference-only greedy search scheme is devised to evaluate the goodness of configurations without introducing any additional training costs. Extensive experiments on three representative models and three datasets demonstrate the effectiveness of the proposed method. Code can be available on \href{https://www.github.com/1hunters/retraining-free-quantization}{https://github.com/1hunters/retraining-free-quantization}.
arxiv情報
著者 | Chen Tang,Yuan Meng,Jiacheng Jiang,Shuzhao Xie,Rongwei Lu,Xinzhu Ma,Zhi Wang,Wenwu Zhu |
発行日 | 2024-06-14 14:55:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google