Prompt, Divide, and Conquer: Bypassing Large Language Model Safety Filters via Segmented and Distributed Prompt Processing

要約

大規模な言語モデル(LLM)は、誤用を防ぐために安全フィルターを組み込んでいる一方で、さまざまなドメインでタスクの自動化とコンテンツ生成を変換しました。
特に悪意のあるコードの生成において、これらの安全対策をバイパスするために、反復的な改良と組み合わせた分散迅速な処理を採用する新しい脱獄フレームワークを紹介します。
私たちのアーキテクチャは、迅速なセグメンテーション、並列処理、応答集約、LLMベースのju審の評価の4つの重要なモジュールで構成されています。
10のサイバーセキュリティカテゴリで500の悪意のあるプロンプトでテストされたフレームワークは、悪意のあるコードの生成において73.2%の成功率(SR)を達成します。
特に、我々の比較分析により、従来の単一LLMジャッジ評価は、LLM審査員制(73.2%)と比較してSRS(93.8%)を過大評価していることが明らかになり、単一裁判官の評価が不完全な実装を受け入れることが多いことが確認されています。
さらに、分散アーキテクチャは、アブレーション研究で分散していないアプローチよりもSRSを12%改善し、分布の迅速な処理の有効性と、脱獄の試みを評価する際の堅牢な評価方法論の重要性の両方を強調することを実証します。

要約(オリジナル)

Large Language Models (LLMs) have transformed task automation and content generation across various domains while incorporating safety filters to prevent misuse. We introduce a novel jailbreaking framework that employs distributed prompt processing combined with iterative refinements to bypass these safety measures, particularly in generating malicious code. Our architecture consists of four key modules: prompt segmentation, parallel processing, response aggregation, and LLM-based jury evaluation. Tested on 500 malicious prompts across 10 cybersecurity categories, the framework achieves a 73.2% Success Rate (SR) in generating malicious code. Notably, our comparative analysis reveals that traditional single-LLM judge evaluation overestimates SRs (93.8%) compared to our LLM jury system (73.2%), with manual verification confirming that single-judge assessments often accept incomplete implementations. Moreover, we demonstrate that our distributed architecture improves SRs by 12% over the non-distributed approach in an ablation study, highlighting both the effectiveness of distributed prompt processing and the importance of robust evaluation methodologies in assessing jailbreak attempts.

arxiv情報

著者 Johan Wahréus,Ahmed Hussain,Panos Papadimitratos
発行日 2025-03-27 15:19:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CR パーマリンク