AdversariaL attacK sAfety aLIgnment(ALKALI): Safeguarding LLMs through GRACE: Geometric Representation-Aware Contrastive Enhancement- Introducing Adversarial Vulnerability Quality Index (AVQI)

要約

LLMに対する敵対的な脅威は、現在の防御が適応できるよりも速くエスカレートしています。
重要な幾何学的死角を整列させます:敵対的なプロンプトは潜在的なカモフラージュを活用し、安全でない意図をコードしながら安全な表現マニホールドに危険にさらされ、直接的な誘惑最適化(DPO)のような表面緩和を回避します。
3つのマクロカテゴリ、6つのサブタイプ、15の攻撃ファミリーにわたって、最初の厳密にキュレーションされた敵対的なベンチマークであり、これまでで最も包括的な9,000プロンプトに及ぶアルカリを紹介します。
21の主要なLLMSの評価により、オープンソースモデルとクローズドソースモデルの両方で驚くほど高い攻撃成功率(ASR)が明らかになり、潜在的な脆弱性と呼ばれる潜在的な脆弱性を暴露します。
この脆弱性を緩和するために、Grace -Geometric Lepressation eal areare Contrastive Enhancement、Alignment Frameworkのカップリング優先学習を潜在的な空間の正則化と紹介します。
グレースは、2つの制約を実施します。安全性と敵対的な完了の間の潜在的な分離と、危険な行動と脱獄行動の間の敵対的な結束です。
これらは、学習した注意プロファイルによって誘導された層状にプールされた埋め込みを介して動作し、ベースモデルを変更せずに内部ジオメトリを再形成し、最大39%のASR削減を達成します。
さらに、クラスター分離とコンパクトさを介して潜在的なアライメント障害を定量化する幾何学的認識メトリックであるAvqiを紹介します。
Avqiは、安全でない完了が安全なもののジオメトリを模倣したときに明らかになり、モデルが内部的に安全性をエンコードする方法に原則的なレンズを提供します。
https://anonymous.4open.science/r/alkali-b416/readme.mdでコードを公開しています。

要約(オリジナル)

Adversarial threats against LLMs are escalating faster than current defenses can adapt. We expose a critical geometric blind spot in alignment: adversarial prompts exploit latent camouflage, embedding perilously close to the safe representation manifold while encoding unsafe intent thereby evading surface level defenses like Direct Preference Optimization (DPO), which remain blind to the latent geometry. We introduce ALKALI, the first rigorously curated adversarial benchmark and the most comprehensive to date spanning 9,000 prompts across three macro categories, six subtypes, and fifteen attack families. Evaluation of 21 leading LLMs reveals alarmingly high Attack Success Rates (ASRs) across both open and closed source models, exposing an underlying vulnerability we term latent camouflage, a structural blind spot where adversarial completions mimic the latent geometry of safe ones. To mitigate this vulnerability, we introduce GRACE – Geometric Representation Aware Contrastive Enhancement, an alignment framework coupling preference learning with latent space regularization. GRACE enforces two constraints: latent separation between safe and adversarial completions, and adversarial cohesion among unsafe and jailbreak behaviors. These operate over layerwise pooled embeddings guided by a learned attention profile, reshaping internal geometry without modifying the base model, and achieve up to 39% ASR reduction. Moreover, we introduce AVQI, a geometry aware metric that quantifies latent alignment failure via cluster separation and compactness. AVQI reveals when unsafe completions mimic the geometry of safe ones, offering a principled lens into how models internally encode safety. We make the code publicly available at https://anonymous.4open.science/r/alkali-B416/README.md.

arxiv情報

著者 Danush Khanna,Krishna Kumar,Basab Ghosh,Vinija Jain,Vasu Sharma,Aman Chadha,Amitava Das
発行日 2025-06-11 05:27:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク