Robust LLM safeguarding via refusal feature adversarial training

要約

大規模な言語モデル(LLM)は、有害な反応を引き出す可能性のある敵対的な攻撃に対して脆弱です。
そのような攻撃に対する防御は、脱獄メカニズムの不透明度とLLMSのトレーニングの高い計算コストのために、困難なままです。
敵対的な攻撃は、拒否機能と呼ばれる残留ストリーム埋め込みスペースの次元を除去することによって機能するLLMセーフガードを回避するための普遍的なメカニズムを共有することを実証します。
さらに、拒否機能アブレーション(RFA)の操作が、モデルの安全性の最悪の摂動に近似することを示します。
これらの調査結果に基づいて、RFAを介した入力レベルの攻撃の効果をシミュレートすることによりLLM敵対的なトレーニングを効率的に実行する新しいアルゴリズムである拒否機能の敵対的訓練(Refat)を提案します。
実験結果は、リファートが幅広い敵対的攻撃に対して3つの一般的なLLMの堅牢性を大幅に改善することを示しています。

要約(オリジナル)

Large language models (LLMs) are vulnerable to adversarial attacks that can elicit harmful responses. Defending against such attacks remains challenging due to the opacity of jailbreaking mechanisms and the high computational cost of training LLMs robustly. We demonstrate that adversarial attacks share a universal mechanism for circumventing LLM safeguards that works by ablating a dimension in the residual stream embedding space called the refusal feature. We further show that the operation of refusal feature ablation (RFA) approximates the worst-case perturbation of offsetting model safety. Based on these findings, we propose Refusal Feature Adversarial Training (ReFAT), a novel algorithm that efficiently performs LLM adversarial training by simulating the effect of input-level attacks via RFA. Experiment results show that ReFAT significantly improves the robustness of three popular LLMs against a wide range of adversarial attacks, with considerably less computational overhead compared to existing adversarial training methods.

arxiv情報

著者 Lei Yu,Virginie Do,Karen Hambardzumyan,Nicola Cancedda
発行日 2025-03-20 15:28:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク