要約
大規模な言語モデル(LLM)は、モデル内の望ましくない知識を消去または抑制することを目的としており、誤用を防ぐために有害または個人情報を制御するための約束を提供します。
ただし、最近の研究では、実際のシナリオでの有効性が限られていることを強調し、実際的な採用を妨げています。
この研究では、多くの下流の障害の根底にある広範な問題を特定します。既存の未学習方法の有効性は、トレーニングサンプルの形式に大きく依存し、同じ知識の代替表現に一般化することができません。
この問題をフォーム依存のバイアスとして正式に特徴付け、さまざまな下流タスクにわたる特定の症状パターンを体系的に調査します。
その有病率を定量化し、将来の研究をサポートするために、知識表現のバリエーションに対する学習方法の堅牢性を評価するために設計された新しいベンチマークであるORTを紹介します。
結果は、フォーム依存のバイアスが現在の技術の中で広範囲で深刻であることを明らかにしています。
LLMの学習は、現実世界のセキュリティクリティカルなシナリオで遭遇するダウンストリームタスクの無限の形式に対処するために、形式に依存するべきであると主張します。
この目標に向けて、有望なソリューションパスとして、新しいトレーニングのない方法であるRank-One Concept Redirection(ROCR)を紹介します。
ROCRは、下流タスク、特にアクティブ化された危険な概念で不変剤をターゲットにすることにより、学習を実行します。
モデルのパラメーターを数秒以内に変更して、特定の未学習ターゲット概念のモデルの認識を別の無害な概念にリダイレクトすることができます。
広範な実験では、ROCRが従来の方法と比較して有効性が大幅に改善し、非常に自然な出力を生成することが示されています。
要約(オリジナル)
Large Language Model (LLM) unlearning aims to erase or suppress undesirable knowledge within the model, offering promise for controlling harmful or private information to prevent misuse. However, recent studies highlight its limited efficacy in real-world scenarios, hindering practical adoption. In this study, we identify a pervasive issue underlying many downstream failures: the effectiveness of existing unlearning methods heavily depends on the form of training samples and frequently fails to generalize to alternate expressions of the same knowledge. We formally characterize this problem as Form-Dependent Bias and systematically investigate its specific manifestation patterns across various downstream tasks. To quantify its prevalence and support future research, we introduce ORT, a novel benchmark designed to evaluate the robustness of unlearning methods against variations in knowledge expression. Results reveal that Form-Dependent Bias is both widespread and severe among current techniques. We argue that LLM unlearning should be form-independent to address the endless forms of downstream tasks encountered in real-world security-critical scenarios. Towards this goal, we introduce Rank-one Concept Redirection (ROCR), a novel training-free method, as a promising solution path. ROCR performs unlearning by targeting the invariants in downstream tasks, specifically the activated dangerous concepts. It is capable of modifying model parameters within seconds to redirect the model’s perception of a specific unlearning target concept to another harmless concept. Extensive experiments demonstrate that ROCR significantly improves unlearning effectiveness compared to traditional methods while generating highly natural outputs.
arxiv情報
著者 | Xiaotian Ye,Mengqi Zhang,Shu Wu |
発行日 | 2025-06-09 14:21:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google