要約
大規模な言語モデル(LLMS)の安全性とアラインメントでの最近の努力にもかかわらず、フロンティアLLMに対する現在の敵対的攻撃は、依然として有害な世代を一貫して強制することができます。
敵対的な訓練は広く研究されており、従来の機械学習モデルの堅牢性を大幅に改善することが示されていますが、LLMSの文脈におけるその長所と短所はあまり理解されていません。
具体的には、既存の個別の敵対的攻撃は有害なコンテンツの生産に効果的ですが、具体的な敵対的プロンプトでLLMをトレーニングすることはしばしば計算上高価であり、継続的な弛緩に依存します。
これらの緩和は個別の入力トークンに対応していないため、このような潜在的なトレーニング方法は、多くの場合、多様な個別の攻撃のセットに対してモデルを脆弱にします。
この作業では、トレーニング中のより強力な離散攻撃とより高速な連続攻撃を組み合わせた新しい方法であるMixatを導入することにより、このギャップを埋めることを目指しています。
幅広い最先端の攻撃にわたってミキシットを厳密に評価し、少なくとも1つの攻撃成功率(ALO-ASR)メトリックを提案して、モデルの最悪の脆弱性をキャプチャします。
連続的な緩和に基づいた方法に匹敵するランタイムを維持しながら、Mixatは、以前の防御(ALO-ASR> 50%)と比較して、大幅に優れた堅牢性(ALO-ASR <20%)を達成することを示しています。
さらに、現実的な展開設定のミキシットを分析し、チャットテンプレート、量子化、低ランクアダプター、および温度が敵対的なトレーニングと評価の両方にどのように影響し、現在の方法論に追加の死角が表示されるかを調査します。
我々の結果は、Mixatの個別の連続防御が、最小限の計算オーバーヘッドで原則的で優れた堅牢性と堅牢性の活動のトレードオフを提供し、より安全なLLMSを構築するという約束を強調していることを示しています。
https://github.com/insait-institute/mixatでコードとモデルを提供します。
要約(オリジナル)
Despite recent efforts in Large Language Models (LLMs) safety and alignment, current adversarial attacks on frontier LLMs are still able to force harmful generations consistently. Although adversarial training has been widely studied and shown to significantly improve the robustness of traditional machine learning models, its strengths and weaknesses in the context of LLMs are less understood. Specifically, while existing discrete adversarial attacks are effective at producing harmful content, training LLMs with concrete adversarial prompts is often computationally expensive, leading to reliance on continuous relaxations. As these relaxations do not correspond to discrete input tokens, such latent training methods often leave models vulnerable to a diverse set of discrete attacks. In this work, we aim to bridge this gap by introducing MixAT, a novel method that combines stronger discrete and faster continuous attacks during training. We rigorously evaluate MixAT across a wide spectrum of state-of-the-art attacks, proposing the At Least One Attack Success Rate (ALO-ASR) metric to capture the worst-case vulnerability of models. We show MixAT achieves substantially better robustness (ALO-ASR < 20%) compared to prior defenses (ALO-ASR > 50%), while maintaining a runtime comparable to methods based on continuous relaxations. We further analyze MixAT in realistic deployment settings, exploring how chat templates, quantization, low-rank adapters, and temperature affect both adversarial training and evaluation, revealing additional blind spots in current methodologies. Our results demonstrate that MixAT’s discrete-continuous defense offers a principled and superior robustness-accuracy tradeoff with minimal computational overhead, highlighting its promise for building safer LLMs. We provide our code and models at https://github.com/insait-institute/MixAT.
arxiv情報
著者 | Csaba Dékány,Stefan Balauca,Robin Staab,Dimitar I. Dimitrov,Martin Vechev |
発行日 | 2025-05-22 17:32:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google