Quantization Meets Reasoning: Exploring LLM Low-Bit Quantization Degradation for Mathematical Reasoning

要約

大規模な言語モデルは、MATH などの複雑な数学的推論ベンチマークで大幅な進歩を達成しました。
ただし、膨大な計算要件があるため、実際の導入には課題が生じます。
モデルの量子化は、より低い精度とビット幅表現を採用することでメモリ使用量と計算コストを削減する効果的な戦略として浮上しました。
この研究では、量子化が数学的推論タスクに及ぼす影響を体系的に評価します。
特定の能力の側面を定性的に評価し、さまざまな量子化手法の段階的な出力について定量的な分析を行う多次元評価フレームワークを導入します。
私たちの結果は、量子化が数値計算と推論計画能力に異なる影響を与えることを示し、量子化モデルのパフォーマンス低下が発生する主要な領域を特定します。

要約(オリジナル)

Large language models have achieved significant advancements in complex mathematical reasoning benchmarks, such as MATH. However, their substantial computational requirements present challenges for practical deployment. Model quantization has emerged as an effective strategy to reduce memory usage and computational costs by employing lower precision and bit-width representations. In this study, we systematically evaluate the impact of quantization on mathematical reasoning tasks. We introduce a multidimensional evaluation framework that qualitatively assesses specific capability dimensions and conduct quantitative analyses on the step-by-step outputs of various quantization methods. Our results demonstrate that quantization differentially affects numerical computation and reasoning planning abilities, identifying key areas where quantized models experience performance degradation.

arxiv情報

著者 Zhen Li,Yupeng Su,Runming Yang,Zhongwei Xie,Ngai Wong,Hongxia Yang
発行日 2025-01-06 14:23:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク