要約
大規模な言語モデル(LLMS)は顕著な能力を達成していますが、ジェイルブレイクと呼ばれる敵対的なプロンプトに対して脆弱なままであり、安全性アライメントをバイパスして有害な出力を引き出すことができます。
LLMの安全調査での努力が高まっているにもかかわらず、既存の評価はしばしば断片化され、孤立した攻撃または防衛技術に焦点を当て、体系的で再現可能な分析を欠いています。
この作業では、攻撃者、ディフェンダー、裁判官を含むマルチエージェントシステムとしてLLM脱獄安全性をモデル化する統一されたモジュール式フレームワークであるPandaguardを紹介します。
当社のフレームワークは、多様なLLMインターフェース、複数の相互作用モード、再現性と実用的な展開を強化する構成駆動型の実験をサポートする柔軟なプラグインアーキテクチャ内で、複数の判断戦略とともに、19の攻撃方法と12の防御メカニズムを実装しています。
このフレームワークに基づいて構築されたPandabenchを開発します。これは、49のLLMSとさまざまな判断アプローチにわたるこれらの攻撃/防衛方法との相互作用を評価する包括的なベンチマークであり、実行には30億以上のトークンが必要です。
当社の広範な評価により、モデルの脆弱性、防衛コストパフォーマンスのトレードオフ、裁判官の一貫性に関する重要な洞察が明らかになりました。
すべての次元にわたって最適な単一の防御はなく、裁判官の意見の不一致が安全評価に自明でない分散をもたらすことがわかります。
LLMの安全性における透明で再現可能な研究をサポートするために、コード、構成、および評価結果をリリースします。
要約(オリジナル)
Large language models (LLMs) have achieved remarkable capabilities but remain vulnerable to adversarial prompts known as jailbreaks, which can bypass safety alignment and elicit harmful outputs. Despite growing efforts in LLM safety research, existing evaluations are often fragmented, focused on isolated attack or defense techniques, and lack systematic, reproducible analysis. In this work, we introduce PandaGuard, a unified and modular framework that models LLM jailbreak safety as a multi-agent system comprising attackers, defenders, and judges. Our framework implements 19 attack methods and 12 defense mechanisms, along with multiple judgment strategies, all within a flexible plugin architecture supporting diverse LLM interfaces, multiple interaction modes, and configuration-driven experimentation that enhances reproducibility and practical deployment. Built on this framework, we develop PandaBench, a comprehensive benchmark that evaluates the interactions between these attack/defense methods across 49 LLMs and various judgment approaches, requiring over 3 billion tokens to execute. Our extensive evaluation reveals key insights into model vulnerabilities, defense cost-performance trade-offs, and judge consistency. We find that no single defense is optimal across all dimensions and that judge disagreement introduces nontrivial variance in safety assessments. We release the code, configurations, and evaluation results to support transparent and reproducible research in LLM safety.
arxiv情報
著者 | Guobin Shen,Dongcheng Zhao,Linghao Feng,Xiang He,Jihang Wang,Sicheng Shen,Haibo Tong,Yiting Dong,Jindong Li,Xiang Zheng,Yi Zeng |
発行日 | 2025-05-26 15:25:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google