要約
コンピューター ビジョンと自然言語処理の両方のためのディープ ニューラル ネットワーク (DNN) に対する大きな関心は、計算能力の向上によって引き起こされています。
ただし、これによりメモリ フットプリントが増加し、携帯電話などのコモディティ デバイスにモデルを単純にロードすることが困難になる場合があります。
この制限に対処するには、高精度のテンソルを低精度でメモリ効率の高い形式にマッピングするため、量子化が推奨されるソリューションです。
メモリ フットプリントの削減という点では、最も効果的なバリアントはコードブックに基づいています。
ただし、これらの方法には 2 つの制限があります。
まず、テンソルごとに 1 つのコードブックを定義するか、複数のコードブックへのメモリを大量に消費するマッピングを使用します。
第 2 に、マッピングの勾配降下最適化は極端な値に向かってジャンプするため、近位探索を定義しません。
この研究では、これら 2 つの制限に対処することを提案します。
まず、最初に同様に分散したニューロンをグループ化し、再順序付けされた構造を利用して、マッピングのオーバーヘッドを発生させずに、異なるスケール係数を異なるグループに適用するか、これらのグループに含まれる重みをいくつかのコードブックにマッピングします。
第 2 に、この初期化から派生して、最近の勾配ベースのトレーニング後の量子化手法との類似性を持つコードブックと重みマッピングの共同学習を提案します。
3 番目に、ストレートスルー推定手法から推定を描画し、コードブックとそのマッピングの近接検索を可能にする新しい勾配更新定義を導入します。
提案されている共同学習可能なコードブックとマッピング (JLCM) 手法では、あらゆる DNN の非常に効率的な近似が可能です。そのため、Llama 7B は 2Go まで圧縮でき、5 年前のスマートフォンにロードできます。
要約(オリジナル)
The massive interest in deep neural networks (DNNs) for both computer vision and natural language processing has been sparked by the growth in computational power. However, this led to an increase in the memory footprint, to a point where it can be challenging to simply load a model on commodity devices such as mobile phones. To address this limitation, quantization is a favored solution as it maps high precision tensors to a low precision, memory efficient format. In terms of memory footprint reduction, its most effective variants are based on codebooks. These methods, however, suffer from two limitations. First, they either define a single codebook for each tensor, or use a memory-expensive mapping to multiple codebooks. Second, gradient descent optimization of the mapping favors jumps toward extreme values, hence not defining a proximal search. In this work, we propose to address these two limitations. First, we initially group similarly distributed neurons and leverage the re-ordered structure to either apply different scale factors to the different groups, or map weights that fall in these groups to several codebooks, without any mapping overhead. Second, stemming from this initialization, we propose a joint learning of the codebook and weight mappings that bears similarities with recent gradient-based post-training quantization techniques. Third, drawing estimation from straight-through estimation techniques, we introduce a novel gradient update definition to enable a proximal search of the codebooks and their mappings. The proposed jointly learnable codebooks and mappings (JLCM) method allows a very efficient approximation of any DNN: as such, a Llama 7B can be compressed down to 2Go and loaded on 5-year-old smartphones.
arxiv情報
著者 | Edouard Yvinec,Arnaud Dapogny,Kevin Bailly |
発行日 | 2023-09-29 16:04:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google