要約
剪定や量子化などの圧縮技術は、ベンチマークパフォーマンスのパフォーマンスが少ないにもかかわらず、言語モデル(LMS)のより効率的な展開のためのソリューションを提供します。
ただし、一般的なLM圧縮方法は、特殊なドメインのパフォーマンスに悪影響を与える可能性があります(たとえば、生物医学的または合法)。
最近の作業はこれに対処しようとしていますが、計算上の高価なフルパラメーターの微調整が必要です。
この目的のために、圧縮されたLMSのドメイン性能を改善するための新しいトレーニングなしのアプローチであるクロスキャリブレーションを提案します。
私たちのアプローチは、ヘシアンベースの感度を効果的に活用して、ドメイン内と一般的なパフォーマンスの両方に影響を与える重みを特定します。
広範な実験を通じて、クロスキャリブレーションは、一般的なパフォーマンスを損なうことなく、ドメイン固有のタスク上の既存のアプローチを大幅に上回ることを実証します。
特に、これらの利益は追加の計算オーバーヘッドなしで発生し、汎用LMSからドメイン特異的圧縮モデルを抽出する顕著な可能性を示します。
要約(オリジナル)
Compression techniques such as pruning and quantization offer a solution for more efficient deployment of language models (LMs), albeit with small performance drops in benchmark performance. However, general-purpose LM compression methods can negatively affect performance in specialized domains (e.g. biomedical or legal). Recent work has sought to address this, yet requires computationally expensive full-parameter fine-tuning. To this end, we propose cross-calibration, a novel training-free approach for improving the domain performance of compressed LMs. Our approach effectively leverages Hessian-based sensitivity to identify weights that are influential for both in-domain and general performance. Through extensive experimentation, we demonstrate that cross-calibration substantially outperforms existing approaches on domain-specific tasks, without compromising general performance. Notably, these gains come without additional computational overhead, displaying remarkable potential towards extracting domain-specialized compressed models from general-purpose LMs.
arxiv情報
著者 | Miles Williams,George Chrysostomou,Vitor Jeronymo,Nikolaos Aletras |
発行日 | 2025-02-25 18:20:00+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google