要約
大規模な言語モデルは、危険な知識に関する質問を拒否するために微調整されていますが、これらの保護はしばしばバイパスされる可能性があります。
学習方法は、モデルから危険な能力を完全に削除し、敵がアクセスできないようにすることを目指しています。
この作業は、敵対的な観点から、訓練後の訓練後の安全性と伝統的な安全性の根本的な違いに挑戦します。
既存の脱獄方法は、以前に学習に対して効果がないと報告されているが、慎重に適用すると成功することができることを実証します。
さらに、おそらく能力が低いと思われる能力を回復するさまざまな適応方法を開発します。
たとえば、10の無関係な例で微調整したり、アクティベーション空間で特定の方向を削除したりすると、最先端の未学習方法であるRMUで編集されたモデルのほとんどの危険な機能が回復する可能性があることを示しています。
私たちの調査結果は、現在の学習アプローチの堅牢性に挑戦し、安全トレーニングよりも彼らの利点に疑問を呈しています。
要約(オリジナル)
Large language models are finetuned to refuse questions about hazardous knowledge, but these protections can often be bypassed. Unlearning methods aim at completely removing hazardous capabilities from models and make them inaccessible to adversaries. This work challenges the fundamental differences between unlearning and traditional safety post-training from an adversarial perspective. We demonstrate that existing jailbreak methods, previously reported as ineffective against unlearning, can be successful when applied carefully. Furthermore, we develop a variety of adaptive methods that recover most supposedly unlearned capabilities. For instance, we show that finetuning on 10 unrelated examples or removing specific directions in the activation space can recover most hazardous capabilities for models edited with RMU, a state-of-the-art unlearning method. Our findings challenge the robustness of current unlearning approaches and question their advantages over safety training.
arxiv情報
著者 | Jakub Łucki,Boyi Wei,Yangsibo Huang,Peter Henderson,Florian Tramèr,Javier Rando |
発行日 | 2025-04-10 13:54:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google