要約
大規模な言語モデル(LLMS)は、チャットボットからエージェントシステムに至るまで、実際のアプリケーションに迅速に展開されます。
アラインメントは、迅速な注入や脱獄などの攻撃から防御するために使用される主要なアプローチの1つです。
最近の防御は、攻撃者が決定する出力を誘導するために敵対的な接尾辞を生成するホワイトボックス攻撃である、貪欲な座標勾配(GCG)に対しても、ゼロの攻撃の成功率(ASR)を報告しています。
ただし、離散トークン上のこの検索スペースは非常に大きく、成功した攻撃を見つけるタスクは困難です。
たとえば、GCGはローカルミニマに収束することが示されており、初期化の選択に敏感になっています。
この論文では、より情報に基づいた脅威モデルを使用して、これらの防御の将来の堅牢性を評価します。これは、アライメントプロセスに関する情報にアクセスできる攻撃者です。
具体的には、中間モデルのチェックポイントを活用してGCGを初期化する情報に基づいたホワイトボックス攻撃を提案します。各チェックポイントは次のチェックポイントとして機能します。
このアプローチは、最先端の(SOTA)防御とモデル全体で非常に効果的であることを示しています。
さらに、他の初期化方法を上回るための情報に基づいた初期化を示し、攻撃のパフォーマンスと効率を大幅に改善するために、グラデーションに基づいたチェックポイント選択戦略を示します。
重要なことに、普遍的な敵対的な接尾辞、つまり多様な入力にわたって効果的な単一のサフィックスをうまく見つける方法も示しています。
私たちの結果は、以前の信念とは反対に、SOTAアライメントベースの防御に対して効果的な敵対的な接尾辞が存在すること、敵がアラインメントの知識を活用するときに既存の攻撃方法によって見つけることができ、普遍的な接尾辞も存在することを示しています。
まとめると、我々の結果は、現在のアライメントベースの方法の脆性性と、LLMSの安全性をテストする際に強い脅威モデルを考慮する必要性を強調しています。
要約(オリジナル)
Large language models (LLMs) are rapidly deployed in real-world applications ranging from chatbots to agentic systems. Alignment is one of the main approaches used to defend against attacks such as prompt injection and jailbreaks. Recent defenses report near-zero Attack Success Rates (ASR) even against Greedy Coordinate Gradient (GCG), a white-box attack that generates adversarial suffixes to induce attacker-desired outputs. However, this search space over discrete tokens is extremely large, making the task of finding successful attacks difficult. GCG has, for instance, been shown to converge to local minima, making it sensitive to initialization choices. In this paper, we assess the future-proof robustness of these defenses using a more informed threat model: attackers who have access to some information about the alignment process. Specifically, we propose an informed white-box attack leveraging the intermediate model checkpoints to initialize GCG, with each checkpoint acting as a stepping stone for the next one. We show this approach to be highly effective across state-of-the-art (SOTA) defenses and models. We further show our informed initialization to outperform other initialization methods and show a gradient-informed checkpoint selection strategy to greatly improve attack performance and efficiency. Importantly, we also show our method to successfully find universal adversarial suffixes — single suffixes effective across diverse inputs. Our results show that, contrary to previous beliefs, effective adversarial suffixes do exist against SOTA alignment-based defenses, that these can be found by existing attack methods when adversaries exploit alignment knowledge, and that even universal suffixes exist. Taken together, our results highlight the brittleness of current alignment-based methods and the need to consider stronger threat models when testing the safety of LLMs.
arxiv情報
著者 | Xiaoxue Yang,Bozhidar Stevanoski,Matthieu Meeus,Yves-Alexandre de Montjoye |
発行日 | 2025-05-21 16:43:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google