要約
大規模な言語モデルは、危険な知識に関する質問を拒否するように微調整されていますが、これらの保護は多くの場合バイパスされる可能性があります。
アンラーニング手法は、モデルから危険な機能を完全に削除し、敵がアクセスできないようにすることを目的としています。
この研究は、敵対的な観点から、アンラーニングと従来のトレーニング後の安全性の根本的な違いに挑戦します。
私たちは、これまで未学習に対して効果がないと報告されていた既存の脱獄方法が、慎重に適用すれば成功する可能性があることを実証します。
さらに、学習されていないと思われる能力のほとんどを回復するさまざまな適応手法を開発します。
たとえば、無関係な 10 個の例を微調整したり、活性化空間の特定の方向を削除したりすると、最先端の非学習手法である RMU で編集されたモデルの最も危険な機能を回復できることを示します。
私たちの調査結果は、現在の非学習アプローチの堅牢性に疑問を投げかけ、安全トレーニングに対するその利点に疑問を投げかけています。
要約(オリジナル)
Large language models are finetuned to refuse questions about hazardous knowledge, but these protections can often be bypassed. Unlearning methods aim at completely removing hazardous capabilities from models and make them inaccessible to adversaries. This work challenges the fundamental differences between unlearning and traditional safety post-training from an adversarial perspective. We demonstrate that existing jailbreak methods, previously reported as ineffective against unlearning, can be successful when applied carefully. Furthermore, we develop a variety of adaptive methods that recover most supposedly unlearned capabilities. For instance, we show that finetuning on 10 unrelated examples or removing specific directions in the activation space can recover most hazardous capabilities for models edited with RMU, a state-of-the-art unlearning method. Our findings challenge the robustness of current unlearning approaches and question their advantages over safety training.
arxiv情報
著者 | Jakub Łucki,Boyi Wei,Yangsibo Huang,Peter Henderson,Florian Tramèr,Javier Rando |
発行日 | 2024-09-26 16:32:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google