Attribution-guided Pruning for Compression, Circuit Discovery, and Targeted Correction in LLMs

要約

大規模な言語モデル(LLM)は、多くの現代的なAIアプリケーションの中心ですが、その広範なパラメーターカウントは、メモリおよび計算制約の環境での展開に大きな課題をもたらします。
特に帰属方法に関する説明可能なAI(XAI)の最近の研究は、解釈可能性が推論に関係のないコンポーネントを識別および削除することにより、モデル圧縮を可能にすることも示唆しています。
このホワイトペーパーでは、層ごとの関連性伝播(LRP)を活用して、LLMの帰属誘導剪定を実行します。
LRPは視力モデルの構造化された剪定に有望を示していますが、LLMSでの構造化されていない剪定に拡張し、パフォーマンス損失を最小限に抑えてモデルサイズを大幅に削減できることを示しています。
私たちの方法は、コア関数(たとえば、間接的なオブジェクト識別)を表すことができるタスク関連のサブグラフ(いわゆる「サーキット」)を抽出するのに特に効果的です。
これに基づいて、偽の行動(たとえば、有毒な出力)の原因となる回路を選択的に除去することにより、モデル補正の手法を導入します。
全体として、私たちはこれらの手法を均一な全体的な枠組みとして収集し、LlamaおよびOPTモデルでの圧縮、回路発見、モデル補正のための広範な実験を通じてその有効性と制限を示し、モデルの効率と安全性の両方を改善する可能性を強調しています。
私たちのコードは、https://github.com/erfanhatefi/sparc3で公開されています。

要約(オリジナル)

Large Language Models (LLMs) are central to many contemporary AI applications, yet their extensive parameter counts pose significant challenges for deployment in memory- and compute-constrained environments. Recent works in eXplainable AI (XAI), particularly on attribution methods, suggest that interpretability can also enable model compression by identifying and removing components irrelevant to inference. In this paper, we leverage Layer-wise Relevance Propagation (LRP) to perform attribution-guided pruning of LLMs. While LRP has shown promise in structured pruning for vision models, we extend it to unstructured pruning in LLMs and demonstrate that it can substantially reduce model size with minimal performance loss. Our method is especially effective in extracting task-relevant subgraphs — so-called “circuits” — which can represent core functions (e.g., indirect object identification). Building on this, we introduce a technique for model correction, by selectively removing circuits responsible for spurious behaviors (e.g., toxic outputs). All in all, we gather these techniques as a uniform holistic framework and showcase its effectiveness and limitations through extensive experiments for compression, circuit discovery and model correction on Llama and OPT models, highlighting its potential for improving both model efficiency and safety. Our code is publicly available at https://github.com/erfanhatefi/SparC3.

arxiv情報

著者 Sayed Mohammad Vakilzadeh Hatefi,Maximilian Dreyer,Reduan Achtibat,Patrick Kahardipraja,Thomas Wiegand,Wojciech Samek,Sebastian Lapuschkin
発行日 2025-06-16 17:38:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク