要約
最近の大規模言語モデル (LLM) の台頭により、精度を下げて LLM を実行する取り組みが増加しています。
LLM を低精度で実行すると、リソースの制約がサポートされ、その民主化が促進され、ユーザーは個人のデバイスで 10 億パラメータの LLM を実行できるようになります。
この継続的な取り組みを補足するために、私たちは INT-FP-QSim を提案します。これは、さまざまな数値精度と形式で LLM とビジョン トランスフォーマーの柔軟な評価を可能にするオープンソース シミュレーターです。
INT-FP-QSim は、TensorRT、QPytorch、AIMET などの既存のオープンソース リポジトリを利用して、さまざまな浮動小数点および整数形式をサポートする複合シミュレータを実現します。
シミュレーターを使用して、4 ビットの重みと 4 ビットまたは 8 ビットのアクティベーションでの LLM とビジョン トランスフォーマーのパフォーマンスに対するさまざまな数値形式の影響を調査します。
また、アダプティブ ブロック浮動小数点、SmoothQuant、GPTQ、RPTQ などの最近提案された手法をモデルのパフォーマンスに関して比較します。
私たちは、INT-FP-QSim により、研究者がさまざまな精度でモデルを柔軟にシミュレーションできるようになり、LLM とビジョン トランスフォーマーの量子化におけるさらなる研究をサポートできるようになると期待しています。
要約(オリジナル)
The recent rise of large language models (LLMs) has resulted in increased efforts towards running LLMs at reduced precision. Running LLMs at lower precision supports resource constraints and furthers their democratization, enabling users to run billion-parameter LLMs on their personal devices. To supplement this ongoing effort, we propose INT-FP-QSim: an open-source simulator that enables flexible evaluation of LLMs and vision transformers at various numerical precisions and formats. INT-FP-QSim leverages existing open-source repositories such as TensorRT, QPytorch and AIMET for a combined simulator that supports various floating point and integer formats. With the help of our simulator, we survey the impact of different numerical formats on the performance of LLMs and vision transformers at 4-bit weights and 4-bit or 8-bit activations. We also compare recently proposed methods like Adaptive Block Floating Point, SmoothQuant, GPTQ and RPTQ on the model performances. We hope INT-FP-QSim will enable researchers to flexibly simulate models at various precisions to support further research in quantization of LLMs and vision transformers.
arxiv情報
著者 | Lakshmi Nair,Mikhail Bernadskiy,Arulselvan Madhavan,Craig Chan,Ayon Basumallik,Darius Bunandar |
発行日 | 2023-07-07 16:54:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google