PsySafe: A Comprehensive Framework for Psychological-based Attack, Defense, and Evaluation of Multi-agent System Safety

要約

大規模言語モデル (LLM) で強化されたマルチエージェント システムは、集合知のための重要な機能を実証します。
ただし、このインテリジェンスが悪意のある目的で悪用される可能性があると、重大なリスクが生じます。
現在までのところ、マルチエージェント システムに関連する安全性の問題に関する包括的な研究は依然として限られています。
エージェント心理学の観点から、エージェントの暗い心理状態が重大な安全上の問題を引き起こす可能性があることがわかりました。
これらの問題に対処するために、私たちはエージェント心理学に基づいた包括的なフレームワークを提案します。
私たちのフレームワークでは、エージェントの暗い性格特性がどのように危険な行動につながるかを特定すること、これらのリスクを軽減するための防御戦略を設計すること、そして心理的および行動的観点の両方からマルチエージェントシステムの安全性を評価するという 3 つの側面に焦点を当てています。
私たちの実験では、エージェント間の集団的な危険行動、危険な行動をした際のエージェントの反省傾向、エージェントの心理的評価と危険な行動との相関関係など、いくつかの興味深い現象が明らかになりました。
私たちは、私たちのフレームワークと観察が、マルチエージェント システムの安全性に関するさらなる研究に貴重な洞察を提供することを期待しています。
データとコードは https:/github.com/AI4Good24/PsySafe で公開します。

要約(オリジナル)

Multi-agent systems, augmented with Large Language Models (LLMs), demonstrate significant capabilities for collective intelligence. However, the potential misuse of this intelligence for malicious purposes presents significant risks. To date, comprehensive research on the safety issues associated with multi-agent systems remains limited. From the perspective of agent psychology, we discover that the dark psychological states of agents can lead to severe safety issues. To address these issues, we propose a comprehensive framework grounded in agent psychology. In our framework, we focus on three aspects: identifying how dark personality traits in agents might lead to risky behaviors, designing defense strategies to mitigate these risks, and evaluating the safety of multi-agent systems from both psychological and behavioral perspectives. Our experiments reveal several intriguing phenomena, such as the collective dangerous behaviors among agents, agents’ propensity for self-reflection when engaging in dangerous behavior, and the correlation between agents’ psychological assessments and their dangerous behaviors. We anticipate that our framework and observations will provide valuable insights for further research into the safety of multi-agent systems. We will make our data and code publicly accessible at https:/github.com/AI4Good24/PsySafe.

arxiv情報

著者 Zaibin Zhang,Yongting Zhang,Lijun Li,Hongzhi Gao,Lijun Wang,Huchuan Lu,Feng Zhao,Yu Qiao,Jing Shao
発行日 2024-01-22 12:11:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR, cs.MA パーマリンク