AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents

要約

ユーザーが安全対策を回避しモデル機能を悪用するプロンプトを設計する脱獄攻撃に対する LLM の堅牢性は、主に単純なチャットボットとして機能する LLM について研究されてきました。
一方、外部ツールを使用し、複数段階のタスクを実行できる LLM エージェントは、悪用された場合に大きなリスクを引き起こす可能性がありますが、その堅牢性は依然として十分に解明されていません。
LLM エージェントの誤用に関する研究を促進するために、AgentHarm と呼ばれる新しいベンチマークを提案します。
このベンチマークには、詐欺、サイバー犯罪、ハラスメントを含む 11 の危害カテゴリをカバーする、110 の明示的に悪意のあるエージェント タスク (拡張を含めると 440) の多様なセットが含まれています。
AgentHarm で良好なスコアを獲得するには、モデルが有害なエージェントのリクエストを拒否するかどうかを測定することに加えて、ジェイルブレイクされたエージェントが攻撃後に複数ステップのタスクを完了する能力を維持する必要があります。
私たちはさまざまな主要な LLM を評価し、(1) 主要な LLM はジェイルブレイクなしで悪意のあるエージェントのリクエストに驚くほど準拠していること、(2) シンプルなユニバーサル ジェイルブレイク テンプレートを効果的にジェイルブレイク エージェントに適合させることができること、(3) これらのジェイルブレイクにより一貫性のある悪意のある攻撃が可能であることがわかりました。
マルチステップのエージェントの動作を管理し、モデルの機能を保持します。
LLM ベースのエージェントに対する攻撃と防御のシンプルかつ信頼性の高い評価を可能にするために、AgentHarm を一般公開します。
https://huggingface.co/ai-safety-institute/AgentHarm でベンチマークを公開しています。

要約(オリジナル)

The robustness of LLMs to jailbreak attacks, where users design prompts to circumvent safety measures and misuse model capabilities, has been studied primarily for LLMs acting as simple chatbots. Meanwhile, LLM agents — which use external tools and can execute multi-stage tasks — may pose a greater risk if misused, but their robustness remains underexplored. To facilitate research on LLM agent misuse, we propose a new benchmark called AgentHarm. The benchmark includes a diverse set of 110 explicitly malicious agent tasks (440 with augmentations), covering 11 harm categories including fraud, cybercrime, and harassment. In addition to measuring whether models refuse harmful agentic requests, scoring well on AgentHarm requires jailbroken agents to maintain their capabilities following an attack to complete a multi-step task. We evaluate a range of leading LLMs, and find (1) leading LLMs are surprisingly compliant with malicious agent requests without jailbreaking, (2) simple universal jailbreak templates can be adapted to effectively jailbreak agents, and (3) these jailbreaks enable coherent and malicious multi-step agent behavior and retain model capabilities. We publicly release AgentHarm to enable simple and reliable evaluation of attacks and defenses for LLM-based agents. We publicly release the benchmark at https://huggingface.co/ai-safety-institute/AgentHarm.

arxiv情報

著者 Maksym Andriushchenko,Alexandra Souly,Mateusz Dziemian,Derek Duenas,Maxwell Lin,Justin Wang,Dan Hendrycks,Andy Zou,Zico Kolter,Matt Fredrikson,Eric Winsor,Jerome Wynne,Yarin Gal,Xander Davies
発行日 2024-10-11 17:39:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク