JAQ: Joint Efficient Architecture Design and Low-Bit Quantization with Hardware-Software Co-Exploration

要約

ニューラル ネットワーク アーキテクチャ、量子化精度、およびハードウェア アクセラレータの共同設計は、特にリソースに制約のあるエッジ デバイスでのモデルの展開において、パフォーマンスと効率の最適なバランスを達成するための有望なアプローチを提供します。
この研究では、3 つの重要な側面を共同で最適化する JAQ フレームワークを提案します。
ただし、これら 3 つの次元の広大な検索空間にわたって設計プロセスを効果的に自動化することは、特に極度に低ビットの量子化を追求する場合に、重大な課題を引き起こします。
具体的には、主な課題は次のとおりです。 (1) ソフトウェア側のメモリ オーバーヘッド: 低精度の量子化を意識したトレーニングでは、バックプロパゲーション用に大きな中間特徴と潜在的な重みを保存するため、大量のメモリ使用量が発生し、メモリ枯渇を引き起こす可能性があります。
(2) ハードウェア側での検索に時間がかかる: ハードウェア パラメーターの離散的な性質と、コンパイラーの最適化と個々の演算子の間の複雑な相互作用により、アクセラレータの検索に時間がかかります。
これらの問題に対処するために、JAQ はチャネルごとのスパース量子化 (CSQ) スキームを通じてメモリ オーバーヘッドを軽減し、最適化中にモデルの最も敏感なコンポーネントに量子化を選択的に適用します。
さらに、JAQ は、ハードウェア生成ネットワークを使用してすべての可能なタイリング モードをエンコードする BatchTile を設計し、それによって最適なコンパイラ マッピング戦略の検索を高速化します。
広範な実験により、JAQ の有効性が実証され、ImageNet では以前の方法と比較して約 7% 高いトップ 1 精度が達成され、反復あたりのハードウェア検索時間が 0.15 秒に短縮されました。

要約(オリジナル)

The co-design of neural network architectures, quantization precisions, and hardware accelerators offers a promising approach to achieving an optimal balance between performance and efficiency, particularly for model deployment on resource-constrained edge devices. In this work, we propose the JAQ Framework, which jointly optimizes the three critical dimensions. However, effectively automating the design process across the vast search space of those three dimensions poses significant challenges, especially when pursuing extremely low-bit quantization. Specifical, the primary challenges include: (1) Memory overhead in software-side: Low-precision quantization-aware training can lead to significant memory usage due to storing large intermediate features and latent weights for back-propagation, potentially causing memory exhaustion. (2) Search time-consuming in hardware-side: The discrete nature of hardware parameters and the complex interplay between compiler optimizations and individual operators make the accelerator search time-consuming. To address these issues, JAQ mitigates the memory overhead through a channel-wise sparse quantization (CSQ) scheme, selectively applying quantization to the most sensitive components of the model during optimization. Additionally, JAQ designs BatchTile, which employs a hardware generation network to encode all possible tiling modes, thereby speeding up the search for the optimal compiler mapping strategy. Extensive experiments demonstrate the effectiveness of JAQ, achieving approximately 7% higher Top-1 accuracy on ImageNet compared to previous methods and reducing the hardware search time per iteration to 0.15 seconds.

arxiv情報

著者 Mingzi Wang,Yuan Meng,Chen Tang,Weixiang Zhang,Yijian Qin,Yang Yao,Yingxin Li,Tongtong Feng,Xin Wang,Xun Guan,Zhi Wang,Wenwu Zhu
発行日 2025-01-09 16:10:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク