要約
大規模言語モデル (LLM) は機密性の高いコンテンツや著作権で保護されたコンテンツを記憶する可能性があり、プライバシーと法的な懸念が生じます。
最初から再トレーニングするのはコストが高いため、研究者は機械の非学習を採用して、全体的なパフォーマンスを維持しながら LLM から特定のコンテンツを削除しようとしています。
このペーパーでは、LLM の機械の非学習におけるいくつかの問題について説明し、考えられるアプローチについての洞察を提供します。
アンラーニング後のモデル出力の評価が不十分であるという問題に対処するために、トークンの多様性、文の意味論、事実の正しさを評価するための 3 つの追加の指標を導入します。
次に、アンラーニングの手法を非ターゲット型とターゲット型に分類し、それぞれの問題点について説明します。
具体的には、非目標非学習が近似しようとする動作は予測不可能であり、幻覚を伴う可能性があり、既存の正則化は目標を絞った非学習には不十分です。
これらの問題を軽減するために、非ターゲット非学習のエントロピー (ME) を最大化する目的を使用し、ターゲット非学習の正則化として回答保存 (AP) 損失を組み込むことを提案します。
架空のアンラーニング、継続的なアンラーニング、現実世界のアンラーニングという 3 つのシナリオにわたる実験結果は、私たちのアプローチの有効性を示しています。
コードは https://github.com/sail-sg/closer-look-LLM-unlearning で入手できます。
要約(オリジナル)
Large language models (LLMs) may memorize sensitive or copyrighted content, raising privacy and legal concerns. Due to the high cost of retraining from scratch, researchers attempt to employ machine unlearning to remove specific content from LLMs while preserving the overall performance. In this paper, we discuss several issues in machine unlearning for LLMs and provide our insights on possible approaches. To address the issue of inadequate evaluation of model outputs after unlearning, we introduce three additional metrics to evaluate token diversity, sentence semantics, and factual correctness. We then categorize unlearning methods into untargeted and targeted, and discuss their issues respectively. Specifically, the behavior that untargeted unlearning attempts to approximate is unpredictable and may involve hallucinations, and existing regularization is insufficient for targeted unlearning. To alleviate these issues, we propose using the objective of maximizing entropy (ME) for untargeted unlearning and incorporate answer preservation (AP) loss as regularization for targeted unlearning. Experimental results across three scenarios, i.e., fictitious unlearning, continual unlearning, and real-world unlearning, demonstrate the effectiveness of our approaches. The code is available at https://github.com/sail-sg/closer-look-LLM-unlearning.
arxiv情報
著者 | Xiaojian Yuan,Tianyu Pang,Chao Du,Kejiang Chen,Weiming Zhang,Min Lin |
発行日 | 2024-10-10 16:56:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google