GUARD: Generation-time LLM Unlearning via Adaptive Restriction and Detection

要約

大規模な言語モデル(LLM)は、多様なドメイン全体で膨大な量の知識を記憶する上で強力な能力を実証しています。
ただし、特定の知識を選択的に忘れる能力は、展開されたモデルの安全性とコンプライアンスを確保するために重要です。
既存の学習の取り組みは、通常、データ、データの保持、キャリブレーションモデルなどのリソースでモデルを微調整します。
これらの追加の勾配ステップは、忘却と保持の知識の間の決定境界を曖昧にし、全体的なパフォーマンスを犠牲にして頻繁に学習します。
微調整のマイナスの影響を回避するために、テキスト生成の流encyさを破壊することなく、忘れターゲットに関連する応答を生成することに対してモデルを安全に守ることにより、推論時間のみで学習する方が良いでしょう。
この作業では、LLMの生成中に動的な解除を可能にするフレームワークである適応制限と検出(Guard)を介して、生成時間の解除を提案します。
具体的には、最初にプロンプ​​ト分類器を採用して、ターゲットを解き放ち、対応する禁止されたトークンを抽出します。
次に、トークンマッチングとセマンティックマッチングの組み合わせを使用して、生成中に候補のトークンを動的にペナルティおよびフィルタリングし、モデルが忘れられたコンテンツを漏らしないようにします。
著作権コンテンツの実験結果は、ハリーポッターデータセットとミューズベンチマークを介したタスクを解き放ち、豆腐データセットのエンティティを拡張するタスクを獲得し、ガードがさまざまなタスクにわたって強い忘れの品質を達成しながら、LLMの一般的な能力にほとんど悪化しないことを示しています。

要約(オリジナル)

Large Language Models (LLMs) have demonstrated strong capabilities in memorizing vast amounts of knowledge across diverse domains. However, the ability to selectively forget specific knowledge is critical for ensuring the safety and compliance of deployed models. Existing unlearning efforts typically fine-tune the model with resources such as forget data, retain data, and a calibration model. These additional gradient steps blur the decision boundary between forget and retain knowledge, making unlearning often at the expense of overall performance. To avoid the negative impact of fine-tuning, it would be better to unlearn solely at inference time by safely guarding the model against generating responses related to the forget target, without destroying the fluency of text generation. In this work, we propose Generation-time Unlearning via Adaptive Restriction and Detection (GUARD), a framework that enables dynamic unlearning during LLM generation. Specifically, we first employ a prompt classifier to detect unlearning targets and extract the corresponding forbidden token. We then dynamically penalize and filter candidate tokens during generation using a combination of token matching and semantic matching, effectively preventing the model from leaking the forgotten content. Experimental results on copyright content unlearning tasks over the Harry Potter dataset and the MUSE benchmark, as well as entity unlearning tasks on the TOFU dataset, demonstrate that GUARD achieves strong forget quality across various tasks while causing almost no degradation to the LLM’s general capabilities, striking an excellent trade-off between forgetting and utility.

arxiv情報

著者 Zhijie Deng,Chris Yuhao Liu,Zirui Pang,Xinlei He,Lei Feng,Qi Xuan,Zhaowei Zhu,Jiaheng Wei
発行日 2025-05-19 16:26:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク