EoRA: Training-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation

要約

この作業では、モデル圧縮問題をカスタマイズされた補償問題に再定式化します。圧縮されたモデルが与えられた場合、ユーザーからのカスタマイズされた要件 (タスク、圧縮率など) に基づいて圧縮エラーを補償するために残留低ランク パスを導入することを目的としています。
その結果、特定の圧縮形式に制約されることなく、全体の容量をより柔軟に調整できるようになります。
ただし、単純に SVD を適用して残差パスを導出すると、低ランクの表現容量が最適に利用されなくなります。
代わりに、勾配ベースのトレーニングを必要とせずに圧縮に起因する誤差を直接最小限に抑え、少量のキャリブレーション データを使用して数分で迅速な最適化を達成する、トレーニング不要の固有空間低ランク近似 (EoRA) を提案します。
EoRA は、圧縮エラーを入力アクティベーションの固有空間に投影し、固有値を利用して重要度の高いエラー コンポーネントの再構築に効果的に優先順位を付けます。
さらに、EoRA は微調整と量子化とシームレスに統合され、有効性と効率をさらに向上させることができます。
EoRA は、言語生成、常識的推論、数学的推論タスクなどのさまざまなタスクにおける圧縮 LLaMA2/3 モデルのエラーの補償において、以前の方法よりも一貫して優れたパフォーマンスを示します (例: ARC-Easy/ARC-Challenge では 31.31%/12.88% および 9.69% の改善)
4 ビットに量子化され、2:4 スパース性にプルーニングされた LLaMA3-8B を補償する場合の MathQA)。
EoRA は、圧縮エラーを補正するためのスケーラブルでトレーニング不要のソリューションを提供し、さまざまな容量と効率の要件に合わせて LLM を導入するための強力なツールとなります。

要約(オリジナル)

In this work, we re-formulate the model compression problem into the customized compensation problem: Given a compressed model, we aim to introduce residual low-rank paths to compensate for compression errors under customized requirements from users (e.g., tasks, compression ratios), resulting in greater flexibility in adjusting overall capacity without being constrained by specific compression formats. However, naively applying SVD to derive residual paths causes suboptimal utilization of the low-rank representation capacity. Instead, we propose Training-free Eigenspace Low-Rank Approximation (EoRA), a method that directly minimizes compression-induced errors without requiring gradient-based training, achieving fast optimization in minutes using a small amount of calibration data. EoRA projects compression errors into the eigenspace of input activations, leveraging eigenvalues to effectively prioritize the reconstruction of high-importance error components. Moreover, EoRA can be seamlessly integrated with fine-tuning and quantization to further improve effectiveness and efficiency. EoRA consistently outperforms previous methods in compensating errors for compressed LLaMA2/3 models on various tasks, such as language generation, commonsense reasoning, and math reasoning tasks (e.g., 31.31%/12.88% and 9.69% improvements on ARC-Easy/ARC-Challenge and MathQA when compensating LLaMA3-8B that is quantized to 4-bit and pruned to 2:4 sparsity). EoRA offers a scalable, training-free solution to compensate for compression errors, making it a powerful tool to deploy LLMs in various capacity and efficiency requirements.

arxiv情報

著者 Shih-Yang Liu,Huck Yang,Chein-Yi Wang,Nai Chit Fung,Hongxu Yin,Charbel Sakr,Saurav Muralidharan,Kwang-Ting Cheng,Jan Kautz,Yu-Chiang Frank Wang,Pavlo Molchanov,Min-Hung Chen
発行日 2024-10-28 17:59:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク