要約
トレーニング後の量子化(PTQ)技術は、その効率と低リソースの要件により、大規模な言語モデル(LLMS)圧縮に広く採用されています。
ただし、現在の研究には、各PTQ戦略の優れたシナリオと適用可能なシナリオの詳細な分析がありません。
さらに、既存のアルゴリズムは主にパフォーマンスに焦点を当て、モデルサイズ、パフォーマンス、および量子化のbit幅のトレードオフを見落としています。
これらの混乱を軽減するために、このペーパーではLLMS PTQの新しいベンチマークを提供します。
第一に、当社のベンチマークをサポートするために、計算戦略(最適化ベース、補償ベースなど)を精査することにより、既存の主流の方法の包括的な分類法を提案します。
次に、各クラス内のベースラインを使用して広範な実験を行い、さまざまなサイズ(7B-70B)、ビトリッド、トレーニングレベル(LLAMA1/2/3/3.1)、アーキテクチャ(Mixtral、Deepseekmoe、Mamba)、およびModality(LLAVA1.5およびVILA1.5)の幅広い比較のMetris formstrisをカバーしています。
パフォーマンスを考慮して、各PTQ戦略とモデル化されたビット幅のトレードオフをモデル化します。
たとえば、私たちのベンチマークは、補償ベースの手法が未解決のクロスアーキテクチャの堅牢性を示しており、超大型モデルの非常に低いビットPTQを再検討する必要があることを明らかにしています。
最後に、補償と他のPTQ戦略の実際的な組み合わせがSOTAさまざまな堅牢性を達成できるとさらに主張します。
当社のベンチマークは、LLMSの展開とPTQアプローチに関する将来の研究に関する貴重な推奨事項を提供すると考えています。https://github.com/zjq0455/ptq_benchmarkでベンチマークのリポジトリを実施します。
要約(オリジナル)
Post-training Quantization (PTQ) technique has been extensively adopted for large language models (LLMs) compression owing to its efficiency and low resource requirement. However, current research lacks a in-depth analysis of the superior and applicable scenarios of each PTQ strategy. In addition, existing algorithms focus primarily on performance, overlooking the trade-off among model size, performance, and quantization bitwidth. To mitigate these confusions, we provide a novel benchmark for LLMs PTQ in this paper. Firstly, in order to support our benchmark, we propose a comprehensive taxonomy for existing mainstream methods by scrutinizing their computational strategies (e.g., optimization-based, compensation-based, etc.). Then, we conduct extensive experiments with the baseline within each class, covering models with various sizes (7B-70B), bitwidths, training levels (LLaMA1/2/3/3.1), architectures (Mixtral, DeepSeekMoE and Mamba) and modality (LLaVA1.5 and VILA1.5) on a wide range of evaluation metrics.Through comparative analysis on the results, we summarize the superior of each PTQ strategy and modelsize-bitwidth trade-off considering the performance. For example, our benchmark reveals that compensation-based technique demonstrates outstanding cross-architecture robustness and extremely low-bit PTQ for ultra large models should be reexamined. Finally, we further accordingly claim that a practical combination of compensation and other PTQ strategy can achieve SOTA various robustness. We believe that our benchmark will provide valuable recommendations for the deployment of LLMs and future research on PTQ approaches.We conduct an repository for our benchmark at https://github.com/zjq0455/PTQ_Benchmark.
arxiv情報
著者 | Jiaqi Zhao,Ming Wang,Miao Zhang,Yuzhang Shang,Xuebo Liu,Yaowei Wang,Min Zhang,Liqiang Nie |
発行日 | 2025-03-24 14:47:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google