FaithUn: Toward Faithful Forgetting in Language Models by Investigating the Interconnectedness of Knowledge

要約

さまざまな研究では、不正な曝露を防ぐために、言語モデルから敏感な知識や私的知識を取り除こうとしています。
しかし、以前の研究では、関連する知識を慎重に検討する必要がある知識の複雑で相互に接続された性質を見落としています。
具体的には、学習方法が削除すべき相互接続された知識を忠実に消去し、関連性があるがまったく異なるコンテキストで存在する知識を維持するかどうかを評価できませんでした。
この問題を解決するために、まず表面的な概念と呼ばれる新しい概念を定義します。これは、非学習方法が相互に接続された知識を削除するか、意図せずに無関係な知識を消去できない現象を指します。
定義に基づいて、実際の知識QA設定で学習することの忠実さを分析および評価するために、新しいベンチマークであるWaithunを紹介します。
さらに、知識関連のニューロンのみを更新して、忠実な学習を達成するために、新しい未学習の方法であるKlueを提案します。
Klueは、説明可能性方法を使用して知識ニューロンを識別し、選択した染色サンプルを使用してそれらのニューロンのみを更新します。
実験結果は、広く使用されている未学習の方法が忠実な学習を確実に保証できないことを示していますが、私たちの方法は実際のQA学習において重要な有効性を示しています。

要約(オリジナル)

Various studies have attempted to remove sensitive or private knowledge from a language model to prevent its unauthorized exposure. However, prior studies have overlooked the complex and interconnected nature of knowledge, where related knowledge must be carefully examined. Specifically, they have failed to evaluate whether an unlearning method faithfully erases interconnected knowledge that should be removed, retaining knowledge that appears relevant but exists in a completely different context. To resolve this problem, we first define a new concept called superficial unlearning, which refers to the phenomenon where an unlearning method either fails to erase the interconnected knowledge it should remove or unintentionally erases irrelevant knowledge. Based on the definition, we introduce a new benchmark, FaithUn, to analyze and evaluate the faithfulness of unlearning in real-world knowledge QA settings. Furthermore, we propose a novel unlearning method, KLUE, which updates only knowledge-related neurons to achieve faithful unlearning. KLUE identifies knowledge neurons using an explainability method and updates only those neurons using selected unforgotten samples. Experimental results demonstrate that widely-used unlearning methods fail to ensure faithful unlearning, while our method shows significant effectiveness in real-world QA unlearning.

arxiv情報

著者 Nakyeong Yang,Minsung Kim,Seunghyun Yoon,Joongbo Shin,Kyomin Jung
発行日 2025-02-26 15:11:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク