Resource-Efficient Language Models: Quantization for Fast and Accessible Inference

要約

大規模な言語モデルは自然言語処理を大幅に進めていますが、その重いリソースの要求は、ハードウェアのアクセシビリティとエネルギー消費に関する深刻な課題をもたらします。
この論文では、さまざまな量子化スキーム、粒状、トレードオフの詳細を含む、エンドユーザーによるLLMSの推論効率を最適化するように設計されたトレーニング後の量子化(PTQ)技術の集中的かつ高レベルのレビューを提示します。
目的は、トレーニング後の量子化の理論と応用の間のバランスの取れた概要を提供することです。

要約(オリジナル)

Large language models have significantly advanced natural language processing, yet their heavy resource demands pose severe challenges regarding hardware accessibility and energy consumption. This paper presents a focused and high-level review of post-training quantization (PTQ) techniques designed to optimize the inference efficiency of LLMs by the end-user, including details on various quantization schemes, granularities, and trade-offs. The aim is to provide a balanced overview between the theory and applications of post-training quantization.

arxiv情報

著者 Tollef Emil Jørgensen
発行日 2025-05-13 14:39:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.AI, I.2.0 パーマリンク