Precise In-Parameter Concept Erasure in Large Language Models

要約

大規模な言語モデル(LLMS)は、多くの場合、下流の展開で望ましくない事前販売中に知識を獲得します。
このような知識を削除するための既存のアプローチは、微調整、低ランクアダプターのトレーニング、またはファクトレベルの編集に依存していますが、これらは粗すぎる、浅すぎるか、効果がないかのいずれかです。
この作業では、パラメーター空間でそれらをエンコードする方向を直接編集することにより、モデルパラメーターから概念全体を正確に消去するための新しいフレームワークである魚座(概念消去のための正確なパラメーター抑制)を提案します。
Piscesは、Disentanglerモデルを使用してMLPベクターを解釈可能な機能に分解し、自動化された解釈可能性技術を使用してターゲット概念に関連するものを特定し、モデルパラメーターから削除します。
Gemma 2およびLlama 3.1の実験は、さまざまな概念を超えて、魚座が先頭の消去方法よりも有効性の控えめな利益を達成し、ターゲット概念の精度を7.7%に低下させ、消去特異性(最大31%)と堅牢性(最大38%)を劇的に改善することを示しています。
全体として、これらの結果は、特徴ベースのパラメーター編集により、言語モデルの概念的知識を削除するためのより正確で信頼できるアプローチが可能になることを示しています。

要約(オリジナル)

Large language models (LLMs) often acquire knowledge during pretraining that is undesirable in downstream deployments, e.g., sensitive information or copyrighted content. Existing approaches for removing such knowledge rely on fine-tuning, training low-rank adapters or fact-level editing, but these are either too coarse, too shallow, or ineffective. In this work, we propose PISCES (Precise In-parameter Suppression for Concept EraSure), a novel framework for precisely erasing entire concepts from model parameters by directly editing directions that encode them in parameter space. PISCES uses a disentangler model to decompose MLP vectors into interpretable features, identifies those associated with a target concept using automated interpretability techniques, and removes them from model parameters. Experiments on Gemma 2 and Llama 3.1 over various concepts show that PISCES achieves modest gains in efficacy over leading erasure methods, reducing accuracy on the target concept to as low as 7.7%, while dramatically improving erasure specificity (by up to 31%) and robustness (by up to 38%). Overall, these results demonstrate that feature-based in-parameter editing enables a more precise and reliable approach for removing conceptual knowledge in language models.

arxiv情報

著者 Yoav Gur-Arieh,Clara Suslik,Yihuai Hong,Fazl Barez,Mor Geva
発行日 2025-05-28 16:58:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク