Unveiling Entity-Level Unlearning for Large Language Models: A Comprehensive Analysis

要約

大規模言語モデルの非学習は、セキュリティとプライバシーの問題に対処できる可能性があるためますます注目を集めており、この分野で広範な研究が行われています。
ただし、この研究の多くはインスタンスレベルのアンラーニングに焦点を当てており、特に機密性の高いコンテンツを含む事前定義されたインスタンスの削除を対象としています。
この焦点により、著作権保護などの現実世界のシナリオでは重要な、完全なエンティティレベルのアンラーニングの探求において大きなギャップが残されています。
この目的を達成するために、エンティティレベルのアンラーニングという新しいタスクを提案します。これは、ターゲットモデルからエンティティ関連の知識を完全に消去することを目的としています。
このタスクを徹底的に調査するために、トレンドの非学習アルゴリズムを系統的に評価し、現在の手法では効果的なエンティティレベルの非学習を達成するのに苦労していることを明らかにしました。
次に、アンラーニング アルゴリズムのパフォーマンスに影響を与える要因をさらに調査し、知識範囲と忘却セットのサイズが重要な役割を果たすことを特定しました。
特に、私たちの分析では、微調整によって導入されたエンティティは、事前トレーニングされたエンティティよりも未学習に対して脆弱であることも明らかになりました。
これらの発見は総合的に、LLM のエンティティレベルのアンラーニングを進めるための貴重な洞察を提供します。

要約(オリジナル)

Large language model unlearning has garnered increasing attention due to its potential to address security and privacy concerns, leading to extensive research in the field. However, much of this research has concentrated on instance-level unlearning, specifically targeting the removal of predefined instances containing sensitive content. This focus has left a significant gap in the exploration of full entity-level unlearning, which is critical in real-world scenarios such as copyright protection. To this end, we propose a novel task of Entity-level unlearning, which aims to erase entity-related knowledge from the target model completely. To thoroughly investigate this task, we systematically evaluate trending unlearning algorithms, revealing that current methods struggle to achieve effective entity-level unlearning. Then, we further explore the factors that influence the performance of the unlearning algorithms, identifying that knowledge coverage and the size of the forget set play pivotal roles. Notably, our analysis also uncovers that entities introduced through fine-tuning are more vulnerable to unlearning than pre-trained entities. These findings collectively offer valuable insights for advancing entity-level unlearning for LLMs.

arxiv情報

著者 Weitao Ma,Xiaocheng Feng,Weihong Zhong,Lei Huang,Yangfan Ye,Xiachong Feng,Bing Qin
発行日 2024-09-17 12:00:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク