要約
大規模な言語モデル(LLM)は、実際のアプリケーションで不可欠になっています。
しかし、彼らの広範な採用は、特に社会的に有害な質問への対応において、重大な安全上の懸念を引き起こします。
アライメントを通じてモデルの安全性を改善するための実質的な努力にもかかわらず、アラインドされたモデルは、追加のトレーニングデータが良性に見える場合でも、その後の微調整によって安全保護を損なう可能性があります。
この論文では、この脆弱性は、LLMパラメーターの安全性が批判的な低ランクのサブスペースの微調整への感度に起因することを経験的に実証します。
この洞察に基づいて、整列したLLMの安全サブスペースを外挿することにより、安全堅牢性を高めるために、低ランク外挿(LOX)と呼ばれる新しいトレーニングなしの方法を提案します。
実験結果はLOXの有効性を確認し、新しいタスクに対するモデルの適応性を維持しながら、良性および悪意のある微調整攻撃の両方に対する堅牢性の大幅な改善を示しています。
たとえば、LOXは、良性または悪意のある微調整攻撃に直面している攻撃成功率(ASR)の11%から54%の絶対削減につながります。
パラメーターのASRランドスケープを調査することにより、LOXの成功は、外挿がLLMパラメーターをよりフラットゾーンに移動させ、それにより摂動に敏感ではないことに起因します。
コードはgithub.com/vita-group/loxで入手できます。
要約(オリジナル)
Large Language Models (LLMs) have become indispensable in real-world applications. However, their widespread adoption raises significant safety concerns, particularly in responding to socially harmful questions. Despite substantial efforts to improve model safety through alignment, aligned models can still have their safety protections undermined by subsequent fine-tuning – even when the additional training data appears benign. In this paper, we empirically demonstrate that this vulnerability stems from the sensitivity of safety-critical low-rank subspaces in LLM parameters to fine-tuning. Building on this insight, we propose a novel training-free method, termed Low-Rank Extrapolation (LoX), to enhance safety robustness by extrapolating the safety subspace of an aligned LLM. Our experimental results confirm the effectiveness of LoX, demonstrating significant improvements in robustness against both benign and malicious fine-tuning attacks while preserving the model’s adaptability to new tasks. For instance, LoX leads to 11% to 54% absolute reductions in attack success rates (ASR) facing benign or malicious fine-tuning attacks. By investigating the ASR landscape of parameters, we attribute the success of LoX to that the extrapolation moves LLM parameters to a flatter zone, thereby less sensitive to perturbations. The code is available at github.com/VITA-Group/LoX.
arxiv情報
著者 | Gabrel J. Perin,Runjin Chen,Xuxi Chen,Nina S. T. Hirata,Zhangyang Wang,Junyuan Hong |
発行日 | 2025-06-18 16:30:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google