Towards a tailored mixed-precision sub-8bit quantization scheme for Gated Recurrent Units using Genetic Algorithms

要約

ディープ ニューラル ネットワークのモデル圧縮技術は最近進歩していますが、そのようなモデルを超低電力の組み込みデバイスに展開することは依然として困難であることが判明しています。
特に、ゲート付きリカレント ユニット (GRU) の量子化スキームは内部状態に依存するため調整が難しく、サブ 8 ビット量子化の恩恵を十分に受けられません。
この研究では、各演算子のビット幅を独立して選択できる GRU 用のモジュール式整数量子化スキームを提案します。
次に、遺伝的アルゴリズム (GA) を使用して、可能なビット幅の広大な検索空間を探索し、同時にモデルのサイズと精度を最適化します。
4 つの異なる連続タスクでメソッドを評価し、混合精度のソリューションがパレート効率の点で均一精度のソリューションを上回ることを示します。
私たちの結果では、8 ビットの均質モデルと同等の精度を維持しながら、モデル サイズを 25% ~ 55% 削減することができました。

要約(オリジナル)

Despite the recent advances in model compression techniques for deep neural networks, deploying such models on ultra-low-power embedded devices still proves challenging. In particular, quantization schemes for Gated Recurrent Units (GRU) are difficult to tune due to their dependence on an internal state, preventing them from fully benefiting from sub-8bit quantization. In this work, we propose a modular integer quantization scheme for GRUs where the bit width of each operator can be selected independently. We then employ Genetic Algorithms (GA) to explore the vast search space of possible bit widths, simultaneously optimising for model size and accuracy. We evaluate our methods on four different sequential tasks and demonstrate that mixed-precision solutions exceed homogeneous-precision ones in terms of Pareto efficiency. In our results, we achieve a model size reduction between 25% and 55% while maintaining an accuracy comparable with the 8-bit homogeneous equivalent.

arxiv情報

著者 Riccardo Miccini,Alessandro Cerioli,Clément Laroche,Tobias Piechowiak,Jens Sparsø,Luca Pezzarossa
発行日 2024-02-19 16:24:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NE, eess.SP パーマリンク