Efficient Adversarial Training in LLMs with Continuous Attacks

要約

大規模言語モデル(LLM)は、その安全ガードレールを回避する敵対的攻撃に対して脆弱である。多くの領域において、敵対的訓練は、このような攻撃に対する頑健性を確実に向上させる最も有望な方法の一つであることが証明されている。しかし、LLMの文脈では、現在の敵対的訓練の方法は、各訓練反復で離散的な敵対的攻撃を実行するために必要な高い計算コストによって妨げられている。我々はこの問題に対処するため、LLMの連続埋め込み空間において敵対的攻撃を計算する。1つ目は、敵対的行動データセット上で計算される連続的埋め込み攻撃に対してモデルを頑健にすること、2つ目は、実用的データ上で微調整を行うことにより、最終モデルの有用性を確保することである。さらに、C-AdvIPOを導入する。C-AdvIPOは、敵対的にロバストなアライメントを行うためのユーティリティデータを必要としない、IPOの敵対的変形である。異なるファミリーの5つのモデル(Gemma、Phi3、Mistral、Zephyr、Llama2)と異なるスケール(2B、3.8B、7B)を用いた実証的評価により、両アルゴリズムが実用性を維持しつつ、離散攻撃(GCG、AutoDAN、PAIR)に対するLLMの頑健性を大幅に向上させることが示された。我々の結果は、連続的な摂動に対する頑健性が離散的な脅威モデルにも外挿できることを示している。これにより、LLMを頑健に整列させるためのスケーラブルな敵対的訓練アルゴリズムへの道筋を示す。

要約(オリジナル)

Large language models (LLMs) are vulnerable to adversarial attacks that can bypass their safety guardrails. In many domains, adversarial training has proven to be one of the most promising methods to reliably improve robustness against such attacks. Yet, in the context of LLMs, current methods for adversarial training are hindered by the high computational costs required to perform discrete adversarial attacks at each training iteration. We address this problem by instead calculating adversarial attacks in the continuous embedding space of the LLM, which is orders of magnitudes more efficient. We propose a fast adversarial training algorithm (C-AdvUL) composed of two losses: the first makes the model robust on continuous embedding attacks computed on an adversarial behaviour dataset; the second ensures the usefulness of the final model by fine-tuning on utility data. Moreover, we introduce C-AdvIPO, an adversarial variant of IPO that does not require utility data for adversarially robust alignment. Our empirical evaluation on five models from different families (Gemma, Phi3, Mistral, Zephyr, Llama2) and at different scales (2B, 3.8B, 7B) shows that both algorithms substantially enhance LLM robustness against discrete attacks (GCG, AutoDAN, PAIR), while maintaining utility. Our results demonstrate that robustness to continuous perturbations can extrapolate to discrete threat models. Thereby, we present a path toward scalable adversarial training algorithms for robustly aligning LLMs.

arxiv情報

著者 Sophie Xhonneux,Alessandro Sordoni,Stephan Günnemann,Gauthier Gidel,Leo Schwinn
発行日 2024-11-01 16:39:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CR, cs.LG パーマリンク