On Effects of Steering Latent Representation for Large Language Model Unlearning

要約

Representation Misdirection for Unlearning (RMU) は、中間層のモデル表現をターゲットのランダム表現に誘導するもので、大規模言語モデル (LLM) の非学習に効果的な方法です。
その高いパフォーマンスにもかかわらず、根本的な原因と説明はまだ解明されていません。
この論文では、最初に、中間層でのステアリング忘れ表現がトークンの信頼性を低下させ、LLM が間違った応答または無意味な応答を生成する原因となることを理論的に実証します。
次に、係数がランダム方向との忘却サンプル表現の位置合わせにどのような影響を与えるかを調査し、さまざまなネットワーク層にわたる効果的な非学習のための最適な係数値を示唆します。
第三に、RMU の未学習モデルが敵対的なジェイルブレイク攻撃に対して堅牢であることを示します。
最後に、私たちの経験的分析は、RMU が LLM の中間層以降に適用されると効果が低下することを示しています。
この欠点を解決するために、私たちはアダプティブ RMU を提案します。これは、ほとんどのレイヤーで非学習を有効にする、シンプルでありながら効果的な代替方法です。
広範な実験により、アダプティブ RMU は追加の計算コストを発生させずに、従来技術と比較して非学習パフォーマンスを大幅に向上させることが実証されました。

要約(オリジナル)

Representation Misdirection for Unlearning (RMU), which steers model representation in the intermediate layer to a target random representation, is an effective method for large language model (LLM) unlearning. Despite its high performance, the underlying cause and explanation remain underexplored. In this paper, we first theoretically demonstrate that steering forget representations in the intermediate layer reduces token confidence, causing LLMs to generate wrong or nonsense responses. Second, we investigate how the coefficient influences the alignment of forget-sample representations with the random direction and hint at the optimal coefficient values for effective unlearning across different network layers. Third, we show that RMU unlearned models are robust against adversarial jailbreak attacks. Last, our empirical analysis shows that RMU is less effective when applied to the middle and later layers in LLMs. To resolve this drawback, we propose Adaptive RMU — a simple yet effective alternative method that makes unlearning effective with most layers. Extensive experiments demonstrate that Adaptive RMU significantly improves the unlearning performance compared to prior art while incurring no additional computational cost.

arxiv情報

著者 Dang Huu-Tien,Trung-Tin Pham,Hoang Thanh-Tung,Naoya Inoue
発行日 2024-08-12 15:24:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク