LSAQ: Layer-Specific Adaptive Quantization for Large Language Model Deployment

要約

大規模な言語モデル(LLMS)がさまざまなドメインで例外的なパフォーマンスを実証するように、エッジデバイスにLLMを展開することが新しいトレンドとして浮上しています。
LLMSのサイズとメモリの要件を削減する量子化技術は、リソース制限エッジデバイスにLLMを展開するのに効果的です。
ただし、既存の1つのサイズのすべての量子化方法は、LLMSのメモリ要件を動的に調整できず、さまざまな計算リソースを使用してアプリケーションを実用的なエッジデバイスに制限することがよくあります。
この問題に取り組むために、層の重要性に基づいてLLMの適応量子化と動的展開のシステムであるレイヤー固有の適応量子化(LSAQ)を提案します。
具体的には、LSAQは、各レイヤーの入力と出力からトップKトークンセットを構築し、ジャッカーの類似性を計算することにより、LLMSの神経層の重要性を評価します。
レイヤーの重要性に基づいて、システムはエッジデバイスの計算リソースに従って、量子化戦略をリアルタイムで適応的に調整します。これは、より重要なレイヤーにより高い量子化精度を適用し、その逆も同様です。
{実験結果は、LSAQが、困惑とゼロショットのタスクの観点から、選択した量子化ベースラインを常に上回ることを示しています。
さらに、LLMの展開を容易にするために、さまざまな使用シナリオの適切な量子化スキームを考案できます。

要約(オリジナル)

As Large Language Models (LLMs) demonstrate exceptional performance across various domains, deploying LLMs on edge devices has emerged as a new trend. Quantization techniques, which reduce the size and memory requirements of LLMs, are effective for deploying LLMs on resource-limited edge devices. However, existing one-size-fits-all quantization methods often fail to dynamically adjust the memory requirements of LLMs, limiting their applications to practical edge devices with various computation resources. To tackle this issue, we propose Layer-Specific Adaptive Quantization (LSAQ), a system for adaptive quantization and dynamic deployment of LLMs based on layer importance. Specifically, LSAQ evaluates the importance of LLMs’ neural layers by constructing top-k token sets from the inputs and outputs of each layer and calculating their Jaccard similarity. Based on layer importance, our system adaptively adjusts quantization strategies in real time according to the computation resource of edge devices, which applies higher quantization precision to layers with higher importance, and vice versa. {Experimental results show that LSAQ consistently outperforms the selected quantization baselines in terms of perplexity and zero-shot tasks. Additionally, it can devise appropriate quantization schemes for different usage scenarios to facilitate the deployment of LLMs.

arxiv情報

著者 Binrui Zeng,Bin Ji,Xiaodong Liu,Jie Yu,Shasha Li,Jun Ma,Xiaopeng Li,Shangwen Wang,Xinran Hong,Yongtao Tang
発行日 2025-05-06 11:41:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク