要約
自動レッドチームは、大規模言語モデル(LLM)の脆弱性を発見するための重要なアプローチとなっている。しかし、既存の手法のほとんどは、安全性の欠陥に焦点を当て、動的な防御に適応し、複雑な脆弱性を効率的に発見する能力を制限している。この課題に対処するため、我々は、悪意のあるクエリを通じてセキュリティ脆弱性を効果的に発見するために、複雑な攻撃戦略を自動的に探索し最適化する強化学習フレームワークであるAuto-RTを提案する。具体的には、探索の複雑さを軽減し、戦略の最適化を改善する2つの主要なメカニズムを導入する:1) 早期終了型探索(Early-terminated Exploration):可能性の高い攻撃戦略に集中することで探索を加速する。2) 中間的なダウングレードモデルを用いた漸進的報酬追跡アルゴリズム(Progressive Reward Tracking algorithm):脆弱性の悪用を成功させるために探索の軌道を動的に改良する。多様なLLMにわたる広範な実験により、探索効率を大幅に改善し、攻撃戦略を自動的に最適化することで、Auto-RTは、既存の手法と比較して、より高速な検出速度と16.63%高い成功率を達成し、よりボーダーな範囲の脆弱性を検出することが実証された。
要約(オリジナル)
Automated red-teaming has become a crucial approach for uncovering vulnerabilities in large language models (LLMs). However, most existing methods focus on isolated safety flaws, limiting their ability to adapt to dynamic defenses and uncover complex vulnerabilities efficiently. To address this challenge, we propose Auto-RT, a reinforcement learning framework that automatically explores and optimizes complex attack strategies to effectively uncover security vulnerabilities through malicious queries. Specifically, we introduce two key mechanisms to reduce exploration complexity and improve strategy optimization: 1) Early-terminated Exploration, which accelerate exploration by focusing on high-potential attack strategies; and 2) Progressive Reward Tracking algorithm with intermediate downgrade models, which dynamically refine the search trajectory toward successful vulnerability exploitation. Extensive experiments across diverse LLMs demonstrate that, by significantly improving exploration efficiency and automatically optimizing attack strategies, Auto-RT detects a boarder range of vulnerabilities, achieving a faster detection speed and 16.63\% higher success rates compared to existing methods.
arxiv情報
著者 | Yanjiang Liu,Shuhen Zhou,Yaojie Lu,Huijia Zhu,Weiqiang Wang,Hongyu Lin,Ben He,Xianpei Han,Le Sun |
発行日 | 2025-01-03 14:30:14+00:00 |
arxivサイト | arxiv_id(pdf) |