要約
大規模な言語モデルは、AIソリューションが支配する現代のITランドスケープの基本的な俳優です。
ただし、それらに関連するセキュリティの脅威は、政府組織や医療機関などの重要なアプリケーションシナリオでの信頼できる採用を妨げる可能性があります。
このため、市販のLLMは通常、洗練された検閲メカニズムを受けて、生成可能な有害な出力を排除します。
これに対応して、LLMのジェイルブレイクはそのような保護に対する重要な脅威であり、多くの以前のアプローチはすでに多様なドメイン全体でその有効性を実証しています。
既存の脱獄提案は、主に悪意のある入力を作成するための生成とテスト戦略を採用しています。
検閲メカニズムの理解を改善し、ターゲットを絞った脱獄攻撃を設計するために、検閲されたモデルと無修正モデルの挙動を比較的分析して、ユニークな搾取可能なアライメントパターンを導出する説明可能な解決策を提案します。
次に、ターゲットノイズインジェクションによってLLMSのセキュリティ制約を破るためにこれらのユニークなパターンを活用する新しい脱獄攻撃であるXbreakingを提案します。
徹底的な実験キャンペーンは、検閲メカニズムに関する重要な洞察を返し、攻撃の有効性とパフォーマンスを実証します。
要約(オリジナル)
Large Language Models are fundamental actors in the modern IT landscape dominated by AI solutions. However, security threats associated with them might prevent their reliable adoption in critical application scenarios such as government organizations and medical institutions. For this reason, commercial LLMs typically undergo a sophisticated censoring mechanism to eliminate any harmful output they could possibly produce. In response to this, LLM Jailbreaking is a significant threat to such protections, and many previous approaches have already demonstrated its effectiveness across diverse domains. Existing jailbreak proposals mostly adopt a generate-and-test strategy to craft malicious input. To improve the comprehension of censoring mechanisms and design a targeted jailbreak attack, we propose an Explainable-AI solution that comparatively analyzes the behavior of censored and uncensored models to derive unique exploitable alignment patterns. Then, we propose XBreaking, a novel jailbreak attack that exploits these unique patterns to break the security constraints of LLMs by targeted noise injection. Our thorough experimental campaign returns important insights about the censoring mechanisms and demonstrates the effectiveness and performance of our attack.
arxiv情報
著者 | Marco Arazzi,Vignesh Kumar Kembu,Antonino Nocera,Vinod P |
発行日 | 2025-04-30 14:44:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google