Improving the Robustness of Representation Misdirection for Large Language Model Unlearning

要約

表現ミスディレクション(Representation Misdirection: RM)とその亜種は、最先端の性能を持つ大規模言語モデル(Large Language Model: LLM)の学習解除手法として確立されている。本論文では、RM法が本質的にモデルの頑健性を低下させ、逆境的でない忘却トークンが1つでもretain-queryに含まれる場合に誤動作を引き起こすことを示す。根本的な原因を理解するために、我々は学習解除プロセスをバックドア攻撃と防御として捉え直す。つまり、忘却トークンはバックドアトリガーとして機能し、retain-query内で活性化されると、成功したバックドア攻撃と同様に、RMモデルの振る舞いに混乱を引き起こす。この脆弱性を軽減するために、我々はRandom Noise Augmentationを提案する。RM手法の頑健性を向上させるための理論的保証を持つ、モデルと手法にとらわれないアプローチである。広範な実験により、RNAがRMモデルの頑健性を大幅に改善し、同時に学習解除性能を向上させることを実証する。

要約(オリジナル)

Representation Misdirection (RM) and variants are established large language model (LLM) unlearning methods with state-of-the-art performance. In this paper, we show that RM methods inherently reduce models’ robustness, causing them to misbehave even when a single non-adversarial forget-token is in the retain-query. Toward understanding underlying causes, we reframe the unlearning process as backdoor attacks and defenses: forget-tokens act as backdoor triggers that, when activated in retain-queries, cause disruptions in RM models’ behaviors, similar to successful backdoor attacks. To mitigate this vulnerability, we propose Random Noise Augmentation — a model and method agnostic approach with theoretical guarantees for improving the robustness of RM methods. Extensive experiments demonstrate that RNA significantly improves the robustness of RM models while enhancing the unlearning performances.

arxiv情報

著者 Dang Huu-Tien,Hoang Thanh-Tung,Le-Minh Nguyen,Naoya Inoue
発行日 2025-02-03 14:05:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク