QGen: On the Ability to Generalize in Quantization Aware Training

要約

量子化により、モデルの重みとアクティベーションを表すために使用するビットが少なくなり、メモリ使用量、計算要件、待ち時間が削減されます。
この研究では、量子化ニューラル ネットワークの一般化特性を調査します。この特性は、モデルのパフォーマンスに影響を与えるにもかかわらず、ほとんど注目されていません。
特に、最初に、ニューラル ネットワークにおける量子化の理論モデルを開発し、量子化が正則化の形式としてどのように機能するかを実証します。
第二に、損失状況の鮮明さと一般化を結びつける最近の研究に動機付けられ、量子化ノイズの量を条件とした量子化モデルの一般化の近似限界を導き出します。
次に、CIFAR-10、CIFAR-100、および ImageNet データセットでトレーニングされた 2,000 を超えるモデルを、畳み込みモデルおよび変換ベースのモデルで実験することにより、仮説を検証します。

要約(オリジナル)

Quantization lowers memory usage, computational requirements, and latency by utilizing fewer bits to represent model weights and activations. In this work, we investigate the generalization properties of quantized neural networks, a characteristic that has received little attention despite its implications on model performance. In particular, first, we develop a theoretical model for quantization in neural networks and demonstrate how quantization functions as a form of regularization. Second, motivated by recent work connecting the sharpness of the loss landscape and generalization, we derive an approximate bound for the generalization of quantized models conditioned on the amount of quantization noise. We then validate our hypothesis by experimenting with over 2000 models trained on CIFAR-10, CIFAR-100, and ImageNet datasets on convolutional and transformer-based models.

arxiv情報

著者 MohammadHossein AskariHemmat,Ahmadreza Jeddi,Reyhane Askari Hemmat,Ivan Lazarevich,Alexander Hoffman,Sudhakar Sah,Ehsan Saboori,Yvon Savaria,Jean-Pierre David
発行日 2024-04-19 16:50:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク