要約
大規模な言語モデルの未解決は、一般的なユーティリティを維持しながら、未抑制モデルから望ましくないデータモデルの影響を除去することにより、安全性と制御されたモデルの行動を確保する上で重要な課題となっています。
最近の大幅な取り組みは、WMDP(武器の大量破壊プロキシ)やMuse(6方向評価の学習マシン)などのLLM学習ベンチマークの開発に専念しており、標準化されたパフォーマンス評価と方法比較を促進しています。
それらの有用性にもかかわらず、これらのベンチマーク内で初めて新しいコアセット効果を明らかにします。
具体的には、オリジナル(フル)忘却セットで達成されたLLMの未解決は、ランダムに選択された場合でも、忘却セットの5%(「コアセット」として機能する)を使用して効果的に維持できることがわかります。
これは、これらのベンチマークで学習することは、非常に低い乳田体制であっても、驚くほど簡単に実行できることを示唆しています。
これらのベンチマークで人気のものであるNPO(ネガティブ優先最適化)やRMU(表現の誤った方向の解除)など、使用されるLLMの学習方法に関係なく、このコアセット効果は強力なままであることを実証します。
驚くほど強いコアセット効果は、ランダム選択からより洗練されたヒューリスティックアプローチに至るまで、さまざまなデータ選択方法にわたって堅牢です。
キーワードベースの視点を介してLLMのコアセット効果を説明し、忘れられたセットだけから抽出されたキーワードが有効性の不足に大きく貢献し、現在の学習がデータセット全体ではなくコンパクトな衝撃トークンによって駆動されることを示します。
さらに、モードの接続性や侵入攻撃への堅牢性など、追加の寸法に沿ったCoreset-Unlearnedモデルの忠実さを正当化します。
コードはhttps://github.com/optml-group/mu-coretetで入手できます。
要約(オリジナル)
Large language model unlearning has become a critical challenge in ensuring safety and controlled model behavior by removing undesired data-model influences from the pretrained model while preserving general utility. Significant recent efforts have been dedicated to developing LLM unlearning benchmarks such as WMDP (Weapons of Mass Destruction Proxy) and MUSE (Machine Unlearning Six-way Evaluation), facilitating standardized unlearning performance assessment and method comparison. Despite their usefulness, we uncover for the first time a novel coreset effect within these benchmarks. Specifically, we find that LLM unlearning achieved with the original (full) forget set can be effectively maintained using a significantly smaller subset (functioning as a ‘coreset’), e.g., as little as 5% of the forget set, even when selected at random. This suggests that LLM unlearning in these benchmarks can be performed surprisingly easily, even in an extremely low-data regime. We demonstrate that this coreset effect remains strong, regardless of the LLM unlearning method used, such as NPO (Negative Preference Optimization) and RMU (Representation Misdirection Unlearning), the popular ones in these benchmarks. The surprisingly strong coreset effect is also robust across various data selection methods, ranging from random selection to more sophisticated heuristic approaches. We explain the coreset effect in LLM unlearning through a keyword-based perspective, showing that keywords extracted from the forget set alone contribute significantly to unlearning effectiveness and indicating that current unlearning is driven by a compact set of high-impact tokens rather than the entire dataset. We further justify the faithfulness of coreset-unlearned models along additional dimensions, such as mode connectivity and robustness to jailbreaking attacks. Codes are available at https://github.com/OPTML-Group/MU-Coreset.
arxiv情報
著者 | Soumyadeep Pal,Changsheng Wang,James Diffenderfer,Bhavya Kailkhura,Sijia Liu |
発行日 | 2025-04-16 14:45:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google