要約
大規模言語モデル (LLM) の安全性は重要な問題であり、モデルのセキュリティを強化するためにレッド チーム テストを採用する多くの研究が行われています。
これらの中で、ジェイルブレイク手法は、安全性の調整に反してモデル出力を誘導する悪意のあるプロンプトを作成することにより、潜在的な脆弱性を探ります。
既存のブラックボックスジェイルブレイク手法はモデルのフィードバックに依存することが多く、攻撃検索プロセス中に検出可能な悪意のある命令を含むクエリを繰り返し送信します。
これらのアプローチは効果的ですが、攻撃は検索プロセス中にコンテンツ モデレーターによって傍受される可能性があります。
我々は、無害なデータの蒸留を通じてターゲットのブラックボックスモデルのミラーモデルをローカルにトレーニングすることにより、悪意のあるプロンプト構築を誘導する、改良された転送攻撃手法を提案します。
この方法では、検索フェーズ中にターゲット モデルに識別可能な悪意のある命令を送信する必要がないため、ステルス性が強化されます。
私たちのアプローチは、AdvBench のサブセット上の GPT-3.5 Turbo に対して、サンプルあたり平均 1.5 個の検出可能なジェイルブレイク クエリで、最大攻撃成功率 92%、またはバランス値 80% を達成しました。
これらの結果は、より堅牢な防御メカニズムの必要性を強調しています。
要約(オリジナル)
Large language model (LLM) safety is a critical issue, with numerous studies employing red team testing to enhance model security. Among these, jailbreak methods explore potential vulnerabilities by crafting malicious prompts that induce model outputs contrary to safety alignments. Existing black-box jailbreak methods often rely on model feedback, repeatedly submitting queries with detectable malicious instructions during the attack search process. Although these approaches are effective, the attacks may be intercepted by content moderators during the search process. We propose an improved transfer attack method that guides malicious prompt construction by locally training a mirror model of the target black-box model through benign data distillation. This method offers enhanced stealth, as it does not involve submitting identifiable malicious instructions to the target model during the search phase. Our approach achieved a maximum attack success rate of 92%, or a balanced value of 80% with an average of 1.5 detectable jailbreak queries per sample against GPT-3.5 Turbo on a subset of AdvBench. These results underscore the need for more robust defense mechanisms.
arxiv情報
著者 | Honglin Mu,Han He,Yuxin Zhou,Yunlong Feng,Yang Xu,Libo Qin,Xiaoming Shi,Zeming Liu,Xudong Han,Qi Shi,Qingfu Zhu,Wanxiang Che |
発行日 | 2024-10-28 14:48:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google