AdvAgent: Controllable Blackbox Red-teaming on Web Agents

要約

基礎モデルベースのエージェントは、複雑なタスクの自動化にますます使用され、効率と生産性を向上させています。
ただし、デリケートなリソースへのアクセスと自律的な意思決定は、攻撃を成功させると深刻な結果につながる可能性があるという重大なセキュリティリスクももたらします。
これらの脆弱性を体系的に明らかにするために、Webエージェントを攻撃するためのブラックボックスの赤い測定フレームワークである将来を提案します。
既存のアプローチとは異なり、Advagentは強化学習ベースのパイプラインを採用して、ブラックボックスエージェントからのフィードバックを使用して敵対的なプロンプトを最適化する敵対的なプロンプターモデルを訓練します。
慎重な攻撃設計により、これらのプロンプトは、ステルス性と制御性を維持しながら、エージェントの弱点を効果的に活用します。
広範な評価は、将来が多様なWebタスク全体で最先端のGPT-4ベースのWebエージェントに対して高い成功率を達成することを示しています。
さらに、既存の迅速な防御は限られた保護のみを提供し、エージェントが私たちのフレームワークに対して脆弱になることを発見しました。
これらの調査結果は、現在のWebエージェントの重要な脆弱性を強調し、より強力な防御メカニズムの緊急の必要性を強調しています。
https://ai-secure.github.io/advagent/でコードをリリースします。

要約(オリジナル)

Foundation model-based agents are increasingly used to automate complex tasks, enhancing efficiency and productivity. However, their access to sensitive resources and autonomous decision-making also introduce significant security risks, where successful attacks could lead to severe consequences. To systematically uncover these vulnerabilities, we propose AdvAgent, a black-box red-teaming framework for attacking web agents. Unlike existing approaches, AdvAgent employs a reinforcement learning-based pipeline to train an adversarial prompter model that optimizes adversarial prompts using feedback from the black-box agent. With careful attack design, these prompts effectively exploit agent weaknesses while maintaining stealthiness and controllability. Extensive evaluations demonstrate that AdvAgent achieves high success rates against state-of-the-art GPT-4-based web agents across diverse web tasks. Furthermore, we find that existing prompt-based defenses provide only limited protection, leaving agents vulnerable to our framework. These findings highlight critical vulnerabilities in current web agents and emphasize the urgent need for stronger defense mechanisms. We release code at https://ai-secure.github.io/AdvAgent/.

arxiv情報

著者 Chejian Xu,Mintong Kang,Jiawei Zhang,Zeyi Liao,Lingbo Mo,Mengqi Yuan,Huan Sun,Bo Li
発行日 2025-05-28 15:38:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR パーマリンク