AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security

要約

Aegisllmは、敵対的な攻撃と情報の漏れに対する協同組合の多エージェント防衛を紹介します。
Aegisllmでは、自律エージェントの構造化されたワークフロー – オーケストレーター、デフレクター、レスポンダー、および評価者 – 協力して、安全で準拠したLLM出力を確保しながら、迅速な最適化を通じて時間の経過とともに自己改善します。
テスト時にスケーリングエージェントの推論システム – 追加のエージェントの役割を組み込むことと、自動化された迅速な最適化(DSPYなど)を活用することにより、モデルの有用性を損なうことなく堅牢性を大幅に向上させることを示します。
このテスト時間防御により、モデル再訓練を必要とせずに、リアルタイムの適応性が進化する攻撃にリアルタイムの適応性を可能にします。
未学習や脱却などの主要な脅威シナリオ全体の包括的な評価は、aegisllmの有効性を示しています。
WMDPの学習ベンチマークでは、aegisllmは、わずか20のトレーニング例と300 LMコール未満のコールでほぼ完全に学習しています。
手動breakのベンチマークでは、強StrongRejectの基本モデルと比較して51%の改善を達成し、同等の方法では18-55%に対して、PHTESTで7.9%の誤った拒否率が7.9%しかありません。
私たちの結果は、静的な防御に対する適応的でエージェントの推論の利点を強調し、モデルの変更に基づいた従来のアプローチに代わる強力なランタイムの代替としてAegisllmを確立します。
コードはhttps://github.com/zikuicai/aegisllmで入手できます

要約(オリジナル)

We introduce AegisLLM, a cooperative multi-agent defense against adversarial attacks and information leakage. In AegisLLM, a structured workflow of autonomous agents – orchestrator, deflector, responder, and evaluator – collaborate to ensure safe and compliant LLM outputs, while self-improving over time through prompt optimization. We show that scaling agentic reasoning system at test-time – both by incorporating additional agent roles and by leveraging automated prompt optimization (such as DSPy)- substantially enhances robustness without compromising model utility. This test-time defense enables real-time adaptability to evolving attacks, without requiring model retraining. Comprehensive evaluations across key threat scenarios, including unlearning and jailbreaking, demonstrate the effectiveness of AegisLLM. On the WMDP unlearning benchmark, AegisLLM achieves near-perfect unlearning with only 20 training examples and fewer than 300 LM calls. For jailbreaking benchmarks, we achieve 51% improvement compared to the base model on StrongReject, with false refusal rates of only 7.9% on PHTest compared to 18-55% for comparable methods. Our results highlight the advantages of adaptive, agentic reasoning over static defenses, establishing AegisLLM as a strong runtime alternative to traditional approaches based on model modifications. Code is available at https://github.com/zikuicai/aegisllm

arxiv情報

著者 Zikui Cai,Shayan Shabihi,Bang An,Zora Che,Brian R. Bartoldson,Bhavya Kailkhura,Tom Goldstein,Furong Huang
発行日 2025-04-29 17:36:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク