要約
ディープ ニューラル ネットワークは、トレーニング後に数百万、数十億の重みをメモリに保存することに問題があり、メモリを大量に消費するモデルを組み込みデバイスに展開するのが困難になります。
重み共有技術は、より少ない重み値を使用し、ネットワーク内の特定の接続間で共有する一般的な圧縮アプローチの 1 つです。
この論文では、ニューラル ネットワーク アーキテクチャ、次元、タスク、データセットに依存しない、多目的進化アルゴリズム (MOEA) ベースの圧縮フレームワークを提案します。
均一なサイズのビンを使用して、ネットワークの重みを単一のコードブック (ルックアップ テーブル) に量子化し、効率的な重み表現を実現します。
MOEA を使用して、2 つの目的を最適化することでパレート最適 $k$ ビンを検索します。
次に、反復マージ手法を非支配パレート フロンティア ソリューションに適用し、パフォーマンスを低下させることなく隣接するビンを結合してビンの数を減らし、圧縮率を高めます。
私たちのアプローチはモデルとレイヤーに依存しません。つまり、重みはどのレイヤーからもクラスター内で混合されます。また、この作業で使用される均一な量子化方法は、k- などの不均一な量子化方法ではなく $O(N)$ の複雑さがあります。
$O(Nkt)$ の複雑さを意味します。
さらに、計算コストがかかる共有重みを再トレーニングする代わりに、クラスターの中心を共有重み値として使用します。
進化的多目的最適化を使用する利点は、パフォーマンスと共有重みに関して非支配的なパレート フロンティア解を取得できることです。
実験結果は、ニューラル ネットワーク メモリを CIFAR-10 では $13.72 \sim14.98 \times$、CIFAR-100 では $11.61 \sim 12.99\times$、ImageNet では $7.44 \sim 8.58\times$ 削減できることを示しています。
提案されたディープ ニューラル ネットワーク圧縮フレームワークの有効性。
要約(オリジナル)
Deep neural networks suffer from storing millions and billions of weights in memory post-training, making challenging memory-intensive models to deploy on embedded devices. The weight-sharing technique is one of the popular compression approaches that use fewer weight values and share across specific connections in the network. In this paper, we propose a multi-objective evolutionary algorithm (MOEA) based compression framework independent of neural network architecture, dimension, task, and dataset. We use uniformly sized bins to quantize network weights into a single codebook (lookup table) for efficient weight representation. Using MOEA, we search for Pareto optimal $k$ bins by optimizing two objectives. Then, we apply the iterative merge technique to non-dominated Pareto frontier solutions by combining neighboring bins without degrading performance to decrease the number of bins and increase the compression ratio. Our approach is model- and layer-independent, meaning the weights are mixed in the clusters from any layer, and the uniform quantization method used in this work has $O(N)$ complexity instead of non-uniform quantization methods such as k-means with $O(Nkt)$ complexity. In addition, we use the center of clusters as the shared weight values instead of retraining shared weights, which is computationally expensive. The advantage of using evolutionary multi-objective optimization is that it can obtain non-dominated Pareto frontier solutions with respect to performance and shared weights. The experimental results show that we can reduce the neural network memory by $13.72 \sim14.98 \times$ on CIFAR-10, $11.61 \sim 12.99\times$ on CIFAR-100, and $7.44 \sim 8.58\times$ on ImageNet showcasing the effectiveness of the proposed deep neural network compression framework.
arxiv情報
著者 | Rasa Khosrowshahli,Shahryar Rahnamayan,Beatrice Ombuki-Berman |
発行日 | 2025-01-06 15:51:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google