Characterizing the Accuracy – Efficiency Trade-off of Low-rank Decomposition in Language Models

要約

大規模言語モデル (LLM) が登場し、1 つのモデルで一般的な問題解決機能を提供します。
ただし、このような広範な問題解決機能を可能にするために、モデルのサイズは数十億のパラメーターで劇的に増加しました。
さらに、LLM では行列と行列の乗算と行列とベクトルの乗算が優勢であるため、計算とモデルのサイズ比は CNN よりも大幅に低くなります。
この変化により、LLM は計算依存型からメモリ依存型へと移行します。
したがって、メモリ フットプリントとトラフィックの最適化は、今日の LLM にとって重要な最適化の方向性です。
メモリ フットプリントとトラフィックの最適化を実現するために、量子化やパラ​​メータ プルーニングなどのモデル圧縮方法が積極的に研究されています。
ただし、LLM のランク枝刈りの精度と効率のトレードオフはまだよく理解されていません。
したがって、オープンソース LLM、Llama 2 を含む最近の言語モデルにおける低ランク分解手法、特にタッカー分解の精度と効率のトレードオフを特徴付けます。低ランク分解設計空間を形式化し、次のことを示します。
分解設計空間は膨大です (たとえば、Llama2-7B の場合は O($2^{37}$))。
このような広大な設計空間をナビゲートするために、私たちは設計空間を定式化し、BERT および Llama 2 モデルで広く使用されている 6 つの LLM ベンチマークを使用して、精度と効率のトレードオフに関する徹底的なケース スタディを実行します。
結果は、分解後に精度を回復するための再トレーニングを行わなくても、ベンチマークの難易度に応じて 4\%p から 10\%p の精度低下を最小限に抑えながら、モデル サイズの 9\% 削減を達成できることを示しています。
結果は、低ランク分解が、大規模なリアルタイム サービス (AI エージェント アシストやリアルタイム コーディング アシスタントなど) を必要とする LLM ベースのアプリケーションにとって有望な方向性となり得ることを示しています。この場合、レイテンシはモデルの精度と同じくらい重要です。

要約(オリジナル)

Large language models (LLMs) have emerged and presented their general problem-solving capabilities with one model. However, the model size has increased dramatically with billions of parameters to enable such broad problem-solving capabilities. In addition, due to the dominance of matrix-matrix and matrix-vector multiplications in LLMs, the compute-to-model size ratio is significantly lower than that of CNNs. This shift pushes LLMs from a computation-bound regime to a memory-bound regime. Therefore, optimizing the memory footprint and traffic is an important optimization direction for LLMs today. Model compression methods such as quantization and parameter pruning have been actively explored for achieving the memory footprint and traffic optimization. However, the accuracy-efficiency trade-off of rank pruning for LLMs is not well-understood yet. Therefore, we characterize the accuracy-efficiency trade-off of a low-rank decomposition method, specifically Tucker decomposition, on recent language models, including an open-source LLM, Llama 2. We formalize the low-rank decomposition design space and show that the decomposition design space is enormous (e.g., O($2^{37}$) for Llama2-7B). To navigate such a vast design space, we formulate the design space and perform thorough case studies of accuracy-efficiency trade-offs using six widely used LLM benchmarks on BERT and Llama 2 models. Our results show that we can achieve a 9\% model size reduction with minimal accuracy drops, which range from 4\%p to 10\%p, depending on the difficulty of the benchmark, without any retraining to recover accuracy after decomposition. The results show that low-rank decomposition can be a promising direction for LLM-based applications that require real-time service in scale (e.g., AI agent assist and real-time coding assistant), where the latency is as important as the model accuracy.

arxiv情報

著者 Chakshu Moar,Michael Pellauer,Hyoukjun Kwon
発行日 2024-05-10 17:40:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク