Improving the Robustness of Representation Misdirection for Large Language Model Unlearning

要約

表現の誤った方向(RM)とバリアントは、最先端のパフォーマンスを備えた大規模な言語モデル(LLM)を確立しています。
この論文では、RMメソッドが本質的にモデルの堅牢性を低下させ、単一の非逆数の忘れられたトークンが保持クエリにある場合でも、それらを誤解させることを示しています。
根本的な原因の理解に向けて、未学習プロセスをバックドア攻撃と防御として再構成します。忘れられないものは、バックドアトリガーとして機能します。これは、保持Queriesで活性化されると、バックドア攻撃の成功と同様に、RMモデルの動作の混乱を引き起こします。
この脆弱性を軽減するために、ランダムノイズの増強を提案します。これは、RMメソッドの堅牢性を改善するための理論的保証を伴うモデルとメソッドの不可知論的アプローチです。
広範な実験では、RNAがRMモデルの堅牢性を大幅に改善しながら、未学習のパフォーマンスを向上させることを示しています。

要約(オリジナル)

Representation Misdirection (RM) and variants are established large language model (LLM) unlearning methods with state-of-the-art performance. In this paper, we show that RM methods inherently reduce models’ robustness, causing them to misbehave even when a single non-adversarial forget-token is in the retain-query. Toward understanding underlying causes, we reframe the unlearning process as backdoor attacks and defenses: forget-tokens act as backdoor triggers that, when activated in retain-queries, cause disruptions in RM models’ behaviors, similar to successful backdoor attacks. To mitigate this vulnerability, we propose Random Noise Augmentation — a model and method agnostic approach with theoretical guarantees for improving the robustness of RM methods. Extensive experiments demonstrate that RNA significantly improves the robustness of RM models while enhancing the unlearning performances.

arxiv情報

著者 Dang Huu-Tien,Hoang Thanh-Tung,Le-Minh Nguyen,Naoya Inoue
発行日 2025-01-31 15:12:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク