要約
大規模言語モデル (LLM) を圧縮すると、特に知識集約型タスクの場合、パフォーマンスの低下につながることがよくあります。
この研究では、圧縮が LLM の固有の知識にどのようなダメージを与えるか、および考えられる救済策について詳しく説明します。
まず、損傷の性質について 2 つの推測を提案します。1 つは、LLM 圧縮後に特定の知識が忘れられる (または消去される) ため、圧縮モデルが追加パラメーターを使用してデータから (再) 学習する必要があるというものです。
もう 1 つは、知識が内部的に置き換えられているため、知識関連のパフォーマンスを回復するには、プロンプトなどの入力側の拡張による「推論の方向転換」のみが必要であると仮定しています。
その後、2 つの推測を検証するために大規模な実験が計画されます。
モデルのチューニングと比較してプロンプトが期待できることがわかります。
推論時の動的プロンプティング (IDP) と呼ばれるバリアントを導入することで、プロンプトの可能性をさらに解き放ちます。これにより、推論のオーバーヘッドを発生させることなく、プロンプトの多様性を効果的に高めることができます。
私たちの実験では、LoRA などの古典的な再トレーニングの代替手段と比較して、IDP によるプロンプトが圧縮後のパフォーマンスの回復につながり、追加のパラメーター サイズを 21 倍に節約し、推論レイテンシを 60% 削減することが一貫して示唆されています。
したがって、私たちの実験は、「忘れられた知識」よりも「知識が置き換えられた」という推測を強く支持し、圧縮された LLM パフォーマンスを回復するための新しい効率的なメカニズムに光を当てました。
さらに、プロンプトモデルと再トレーニングされたモデル間の異なる注意と活性化パターンを視覚化および分析し、2 つの異なるレジームでパフォーマンスの回復が達成されることを実証しました。
要約(オリジナル)
Compressing Large Language Models (LLMs) often leads to reduced performance, especially for knowledge-intensive tasks. In this work, we dive into how compression damages LLMs’ inherent knowledge and the possible remedies. We start by proposing two conjectures on the nature of the damage: one is certain knowledge being forgotten (or erased) after LLM compression, hence necessitating the compressed model to (re)learn from data with additional parameters; the other presumes that knowledge is internally displaced and hence one requires merely ‘inference re-direction’ with input-side augmentation such as prompting, to recover the knowledge-related performance. Extensive experiments are then designed to (in)validate the two conjectures. We observe the promise of prompting in comparison to model tuning; we further unlock prompting’s potential by introducing a variant called Inference-time Dynamic Prompting (IDP), that can effectively increase prompt diversity without incurring any inference overhead. Our experiments consistently suggest that compared to the classical re-training alternatives such as LoRA, prompting with IDP leads to better or comparable post-compression performance recovery, while saving the extra parameter size by 21x and reducing inference latency by 60%. Our experiments hence strongly endorse the conjecture of ‘knowledge displaced’ over ‘knowledge forgotten’, and shed light on a new efficient mechanism to restore compressed LLM performance. We additionally visualize and analyze the different attention and activation patterns between prompted and re-trained models, demonstrating they achieve performance recovery in two different regimes.
arxiv情報
著者 | Duc N. M Hoang,Minsik Cho,Thomas Merth,Mohammad Rastegari,Zhangyang Wang |
発行日 | 2024-02-16 18:39:45+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google