要約
大規模言語モデル (LLM) はさまざまなタスクにわたって優れた機能を発揮しますが、脆弱性を悪用してセキュリティ対策を回避し、有害な出力を生成するジェイルブレイク攻撃などの潜在的なセキュリティ リスクに直面します。
既存の脱獄戦略は主に攻撃成功率 (ASR) を最大化することに焦点を当てており、クエリに対する脱獄応答の関連性やステルス性のレベルなど、他の重要な要素が無視されていることがよくあります。
このように単一の目的に焦点を絞ると、文脈上の関連性が欠如していたり、簡単に認識できたりする効果のない攻撃が発生する可能性があります。
この作業では、多目的最適化を備えた革新的なブラックボックス攻撃フレームワークである BlackDAN を紹介します。これは、文脈上の関連性を維持し、検出可能性を最小限に抑えながら、ジェイルブレイクを効果的に促進する高品質のプロンプトを生成することを目的としています。
BlackDAN は、多目的進化アルゴリズム (MOEA)、特に NSGA-II アルゴリズムを活用して、ASR、ステルス性、セマンティック関連性などの複数の目的にわたってジェイルブレイクを最適化します。
突然変異、クロスオーバー、パレート支配などのメカニズムを統合することにより、BlackDAN はジェイルブレイクを生成するための透過的で解釈可能なプロセスを提供します。
さらに、このフレームワークではユーザーの好みに基づいたカスタマイズが可能で、有害性、関連性、その他の要素のバランスを考慮したプロンプトの選択が可能です。
実験結果は、BlackDAN が従来の単一目的手法よりも優れており、さまざまな LLM およびマルチモーダル LLM にわたって高い成功率と堅牢性を向上させ、ジェイルブレイク応答が関連性があり検出されにくいことを保証することを示しています。
要約(オリジナル)
While large language models (LLMs) exhibit remarkable capabilities across various tasks, they encounter potential security risks such as jailbreak attacks, which exploit vulnerabilities to bypass security measures and generate harmful outputs. Existing jailbreak strategies mainly focus on maximizing attack success rate (ASR), frequently neglecting other critical factors, including the relevance of the jailbreak response to the query and the level of stealthiness. This narrow focus on single objectives can result in ineffective attacks that either lack contextual relevance or are easily recognizable. In this work, we introduce BlackDAN, an innovative black-box attack framework with multi-objective optimization, aiming to generate high-quality prompts that effectively facilitate jailbreaking while maintaining contextual relevance and minimizing detectability. BlackDAN leverages Multiobjective Evolutionary Algorithms (MOEAs), specifically the NSGA-II algorithm, to optimize jailbreaks across multiple objectives including ASR, stealthiness, and semantic relevance. By integrating mechanisms like mutation, crossover, and Pareto-dominance, BlackDAN provides a transparent and interpretable process for generating jailbreaks. Furthermore, the framework allows customization based on user preferences, enabling the selection of prompts that balance harmfulness, relevance, and other factors. Experimental results demonstrate that BlackDAN outperforms traditional single-objective methods, yielding higher success rates and improved robustness across various LLMs and multimodal LLMs, while ensuring jailbreak responses are both relevant and less detectable.
arxiv情報
著者 | Xinyuan Wang,Victor Shea-Jay Huang,Renmiao Chen,Hao Wang,Chengwei Pan,Lei Sha,Minlie Huang |
発行日 | 2024-10-18 14:03:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google