Evil Geniuses: Delving into the Safety of LLM-based Agents

要約

大規模言語モデル (LLM) の急速な進歩により、LLM ベースのエージェントが復活しました。LLM ベースのエージェントは、さまざまなインタラクションや戦略策定において、印象的な人間のような動作と協力的な能力を実証します。
ただし、LLM ベースの薬剤の安全性を評価することは依然として複雑な課題です。
この論文では、Evil Geniuses と呼ばれる仮想チャットを利用した邪悪な計画開発チームとともに、一連の手動脱獄プロンプトを入念に実施し、これらのエージェントの安全面を徹底的に調査しています。
私たちの調査により、次の 3 つの注目すべき現象が明らかになりました。 1) LLM ベースのエージェントは、悪意のある攻撃に対する堅牢性が低下しています。
2) 攻撃されたエージェントは、より微妙な応答を返す可能性があります。
3) 生成された不適切な応答の検出はさらに困難です。
これらの洞察は、LLM ベースのエージェントのシステム/エージェント内のさまざまなレベルおよびさまざまな役割の専門化における脆弱性を浮き彫りにし、エージェントに対する LLM ベースの攻撃の有効性を疑問視するよう促します。
広範な評価と議論により、LLM ベースの薬剤は安全性において重大な課題に直面していることが明らかになり、将来の研究のための洞察が得られます。
私たちのコードは https://github.com/T1aNS1R/Evil-Geniuses で入手できます。

要約(オリジナル)

The rapid advancements in large language models (LLMs) have led to a resurgence in LLM-based agents, which demonstrate impressive human-like behaviors and cooperative capabilities in various interactions and strategy formulations. However, evaluating the safety of LLM-based agents remains a complex challenge. This paper elaborately conducts a series of manual jailbreak prompts along with a virtual chat-powered evil plan development team, dubbed Evil Geniuses, to thoroughly probe the safety aspects of these agents. Our investigation reveals three notable phenomena: 1) LLM-based agents exhibit reduced robustness against malicious attacks. 2) the attacked agents could provide more nuanced responses. 3) the detection of the produced improper responses is more challenging. These insights prompt us to question the effectiveness of LLM-based attacks on agents, highlighting vulnerabilities at various levels and within different role specializations within the system/agent of LLM-based agents. Extensive evaluation and discussion reveal that LLM-based agents face significant challenges in safety and yield insights for future research. Our code is available at https://github.com/T1aNS1R/Evil-Geniuses.

arxiv情報

著者 Yu Tian,Xiao Yang,Jingyuan Zhang,Yinpeng Dong,Hang Su
発行日 2023-11-20 15:50:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク