Quantization Meets Reasoning: Exploring LLM Low-Bit Quantization Degradation for Mathematical Reasoning

要約

大規模な言語モデルは、数学などの複雑な数学的推論ベンチマークで大きな進歩を達成しています。
ただし、それらの実質的な計算要件は、実際の展開の課題を提示しています。
モデルの量子化は、より低い精度とビット幅の表現を使用することにより、メモリの使用量と計算コストを削減するための効果的な戦略として浮上しています。
この研究では、数学的推論タスクに対する量子化の影響を体系的に評価します。
我々の結果は、AWQやGPTQなどの積極的な量子化方法が、特に数値計算と推論計画において、LLAMA-3モデルで最大32.39％の精度分解（平均11.31％）を導入することを示しています。
これに対処するために、定性的能力分析と定量的エラー評価を組み合わせた多次元評価フレームワークを紹介します。
さらに、ターゲットを絞った回復戦略を開発し、4 GPUで3分間のみ545タスク固有の例で微調整された量子化モデルが、推論機能がほぼすべての精度レベルに効果的に回復することを示しています。
さらに、エラー評価パイプラインは、3,366の障害ケースにわたってエラーの診断と局所化の精度を98.9％の精度で達成し、量子化誘導分解を緩和するための実用的な洞察を提供します。

要約(オリジナル)

Large language models have achieved significant advancements in complex mathematical reasoning benchmarks, such as MATH. However, their substantial computational requirements present challenges for practical deployment. Model quantization has emerged as an effective strategy to reduce memory usage and computational costs by employing lower precision and bit-width representations. In this study, we systematically evaluate the impact of quantization on mathematical reasoning tasks. Our results demonstrate that aggressive quantization methods like AWQ and GPTQ introduce up to 32.39% accuracy degradation (average 11.31%) on Llama-3 models, particularly in numerical computation and reasoning planning. To address this, we introduce a multidimensional evaluation framework combining qualitative capability analysis and quantitative error assessment. We further develop targeted recovery strategies, showing that fine-tuning quantized models on only 545 task-specific examples for 3 minutes on 4 GPUs effectively restores reasoning capabilities to near full-precision levels. Additionally, our error assessment pipeline achieves 98.9% accuracy in diagnosing and localizing errors across 3,366 failure cases, providing actionable insights for mitigating quantization-induced degradation.

arxiv情報

著者	Zhen Li,Yupeng Su,Runming Yang,Congkai Xie,Zheng Wang,Zhongwei Xie,Ngai Wong,Hongxia Yang
発行日	2025-02-17 18:11:20+00:00
arxivサイト	arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

Quantization Meets Reasoning: Exploring LLM Low-Bit Quantization Degradation for Mathematical Reasoning

要約

要約(オリジナル)

arxiv情報

提供元, 利用サービス

最近の投稿

最近のコメント

アーカイブ

カテゴリー