要約
モデル圧縮の開発は、ASICやFPGAを搭載した様々なニューラルネットワークアクセラレータの進化によって絶えず動機づけられている。アルゴリズム側では、量子化や刈り込みの最終的な目標は、低消費電力ハードウェア上で高価なDNN計算を高速化することである。しかし、このような「デザイン&デプロイ」ワークフローは、現在のハードウェアとアルゴリズムの共同設計コミュニティでは、十分に検討されていない課題に直面している。第一に、最先端の量子化アルゴリズムは、精度を無視できるほど低下させることなく低精度を達成できるが、最新の深層学習フレームワーク(PyTorchなど)は、カスタマイズできない8ビット精度、データフォーマット、パラメータ抽出しかサポートできない。第二に、量子化の目的は、低精度データでの計算を可能にすることである。しかし、現在のSoTAアルゴリズムは、量子化された整数を中間結果として扱い、量子化器の最終出力は「離散化された」浮動小数点値であるため、実用的なニーズを無視し、整数パラメータ抽出とレイヤーフュージョンのためにハードウェア設計者の作業負荷を増やしている。最後に、業界によって設計された圧縮ツールキットは、自社製品または一握りのアルゴリズムに制約されている。現在のツールキットでは自由度が制限されており、カスタマイズが十分に検討されていないため、ASICやFPGAベースのアクセラレータのプロトタイプ設計の妨げとなっている。これらの課題を解決するために、我々は、オープンソースで、完全にカスタマイズ可能で、高性能なツールキットであるTorch2Chipを提案します。Torch2Chipは、ユーザが設計した圧縮に続いて、自動的なモデル融合とパラメータ抽出をサポートします。Torch2Chipは、階層設計ワークフローを組み込んでおり、ユーザがカスタマイズした圧縮アルゴリズムは、CNNまたはViT(Vision Transformer)によるプロトタイプチップ検証のために、展開可能なフォーマットに直接パックされます。コードはhttps://github.com/SeoLabCornell/torch2chip。
要約(オリジナル)
The development of model compression is continuously motivated by the evolution of various neural network accelerators with ASIC or FPGA. On the algorithm side, the ultimate goal of quantization or pruning is accelerating the expensive DNN computations on low-power hardware. However, such a ‘design-and-deploy’ workflow faces under-explored challenges in the current hardware-algorithm co-design community. First, although the state-of-the-art quantization algorithm can achieve low precision with negligible degradation of accuracy, the latest deep learning framework (e.g., PyTorch) can only support non-customizable 8-bit precision, data format, and parameter extraction. Secondly, the objective of quantization is to enable the computation with low-precision data. However, the current SoTA algorithm treats the quantized integer as an intermediate result, while the final output of the quantizer is the ‘discretized’ floating-point values, ignoring the practical needs and adding additional workload to hardware designers for integer parameter extraction and layer fusion. Finally, the compression toolkits designed by the industry are constrained to their in-house product or a handful of algorithms. The limited degree of freedom in the current toolkit and the under-explored customization hinder the prototype ASIC or FPGA-based accelerator design. To resolve these challenges, we propose Torch2Chip, an open-sourced, fully customizable, and high-performance toolkit that supports user-designed compression followed by automatic model fusion and parameter extraction. Torch2Chip incorporates the hierarchical design workflow, and the user-customized compression algorithm will be directly packed into the deployment-ready format for prototype chip verification with either CNN or vision transformer (ViT). The code is available at https://github.com/SeoLabCornell/torch2chip.
arxiv情報
著者 | Jian Meng,Yuan Liao,Anupreetham Anupreetham,Ahmed Hasssan,Shixing Yu,Han-sok Suh,Xiaofeng Hu,Jae-sun Seo |
発行日 | 2024-05-06 15:27:31+00:00 |
arxivサイト | arxiv_id(pdf) |