Catastrophic Failure of LLM Unlearning via Quantization

要約

大規模な言語モデル(LLM)は、テキストの生成において顕著な習熟度を示しており、広大なテキストコーパスに関する広範なトレーニングの恩恵を受けています。
ただし、LLMは、著作権およびプライベートコンテンツを含むトレーニングデータの多様で敏感な性質から不要な行動を取得する場合があります。
Machine Ulearningは、費用がかかり、時間のかかる再訓練を必要とせずに、このような問題のあるコンテンツの影響を除去するための実行可能なソリューションとして導入されました。
このプロセスは、できるだけ多くのモデルユーティリティを保存しながら、LLMSから特定の知識を消去することを目的としています。
現在の学習方法の有効性にもかかわらず、LLMの既存の学習方法が本当に忘れを達成するか、単に知識を隠しているかどうかにはほとんど注意が払われていません。
このホワイトペーパーでは、学習を受けたモデルに量子化を適用すると、「忘れられた」情報が回復する可能性があることが明らかになりました。
この現象を徹底的に評価するために、複数の精度レベルにわたってさまざまな量子化技術を使用して包括的な実験を実施します。
ユーティリティの制約を備えた解除方法の場合、未学習モデルは、意図された忘れられた知識の平均21 \%を完全に正確に保持し、4ビット量子化後83 \%に大幅に増加することがわかります。
…当社のコードは、\ href {https://github.com/zzwjames/failurellmunlearning} {https://github.com/zzwjames/failurellmunlearning}で入手できます。

要約(オリジナル)

Large language models (LLMs) have shown remarkable proficiency in generating text, benefiting from extensive training on vast textual corpora. However, LLMs may also acquire unwanted behaviors from the diverse and sensitive nature of their training data, which can include copyrighted and private content. Machine unlearning has been introduced as a viable solution to remove the influence of such problematic content without the need for costly and time-consuming retraining. This process aims to erase specific knowledge from LLMs while preserving as much model utility as possible. Despite the effectiveness of current unlearning methods, little attention has been given to whether existing unlearning methods for LLMs truly achieve forgetting or merely hide the knowledge, which current unlearning benchmarks fail to detect. This paper reveals that applying quantization to models that have undergone unlearning can restore the ‘forgotten’ information. To thoroughly evaluate this phenomenon, we conduct comprehensive experiments using various quantization techniques across multiple precision levels. We find that for unlearning methods with utility constraints, the unlearned model retains an average of 21\% of the intended forgotten knowledge in full precision, which significantly increases to 83\% after 4-bit quantization. … Our code is available at: \href{https://github.com/zzwjames/FailureLLMUnlearning}{https://github.com/zzwjames/FailureLLMUnlearning}.

arxiv情報

著者 Zhiwei Zhang,Fali Wang,Xiaomin Li,Zongyu Wu,Xianfeng Tang,Hui Liu,Qi He,Wenpeng Yin,Suhang Wang
発行日 2025-03-21 06:37:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク