Greener yet Powerful: Taming Large Code Generation Models with Quantization

要約

ML を利用したコード生成は、自然言語プロンプトに基づいてコード ブロックをインテリジェントに生成することにより、開発者がより生産的な方法でコードを記述できるようにすることを目的としています。
最近、大規模な事前トレーニング済みの深層学習モデルが、コード生成の境界を大幅に押し広げ、印象的なパフォーマンスを達成しました。
その強力な機能にもかかわらず、膨大な数のモデル パラメーターは、開発者が標準のラップトップまたは中規模のサーバーを使用してコードを開発する可能性のある通常のソフトウェア開発環境にそれらを適応させることに重大な脅威をもたらします。
このような大規模なモデルでは、かなりのリソース使用量 (メモリ、待機時間、費用の面で) と二酸化炭素排出量が発生します。
モデルの圧縮は、これらの課題に対処するための有望なアプローチです。
通常、視覚データやテキスト データに使用される大規模な事前トレーニング済みモデルを圧縮するために、いくつかの手法が提案されています。
多くの利用可能な圧縮手法の中で、量子化は大幅な再トレーニング コストを必要としないため、コード生成タスクに最も適していることがわかりました。
量子化はモデル パラメーターを下位ビットの整数 (int8 など) で表すため、モデルのサイズとランタイム レイテンシの両方が、このような int 表現の恩恵を受けます。
コード生成タスクに対する量子化モデルの影響を、(i) リソースの使用と二酸化炭素排出量、(ii) 精度、(iii) 堅牢性など、さまざまな次元にわたって広く研究しています。
この目的のために、体系的な実験を通じて、精度や堅牢性を大幅に低下させることなく、通常のラップトップで6ドルのモデルでも実行できる量子化手法のレシピを見つけました.
さらに、このレシピはコード要約タスクにも容易に適用できることがわかりました。

要約(オリジナル)

ML-powered code generation aims to assist developers to write code in a more productive manner, by intelligently generating code blocks based on natural language prompts. Recently, large pretrained deep learning models have substantially pushed the boundary of code generation and achieved impressive performance. Despite their great power, the huge number of model parameters poses a significant threat to adapting them in a regular software development environment, where a developer might use a standard laptop or mid-size server to develop her code. Such large models incur significant resource usage (in terms of memory, latency, and dollars) as well as carbon footprint. Model compression is a promising approach to address these challenges. Several techniques are proposed to compress large pretrained models typically used for vision or textual data. Out of many available compression techniques, we identified that quantization is mostly applicable for code generation task as it does not require significant retraining cost. As quantization represents model parameters with lower-bit integer (e.g., int8), the model size and runtime latency would both benefit from such int representation. We extensively study the impact of quantized model on code generation tasks across different dimension: (i) resource usage and carbon footprint, (ii) accuracy, and (iii) robustness. To this end, through systematic experiments we find a recipe of quantization technique that could run even a $6$B model in a regular laptop without significant accuracy or robustness degradation. We further found the recipe is readily applicable to code summarization task as well.

arxiv情報

著者 Xiaokai Wei,Sujan Gonugondla,Wasi Ahmad,Shiqi Wang,Baishakhi Ray,Haifeng Qian,Xiaopeng Li,Varun Kumar,Zijian Wang,Yuchen Tian,Qing Sun,Ben Athiwaratkun,Mingyue Shang,Murali Krishna Ramanathan,Parminder Bhatia,Bing Xiang
発行日 2023-03-09 16:25:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SE パーマリンク