I Want to Break Free! Anti-Social Behavior and Persuasion Ability of LLMs in Multi-Agent Settings with Social Hierarchy

要約

大規模言語モデル (LLM) ベースのエージェントがますます自律的になり、より自由に相互作用するようになるにつれて、それらの間の相互作用を研究することは、新たな現象や潜在的なリスクを予測するために重要になります。
私たちは、広く人気のあるスタンフォード監獄実験からインスピレーションを得て、厳格な社会的階層構造を特徴とする状況における LLM エージェントの相互作用パターンを研究することで、この分野の研究に貢献しています。
私たちは、特定の目標 (つまり、追加のヤードタイムの​​獲得や刑務所からの脱出) を達成しようとする看守と囚人エージェントが関与するシミュレーション シナリオにおける説得と反社会的行動という 2 つのタイプの現象を具体的に研究することによってこれを行います。
5 つの異なる人気のある LLM にわたる合計 2,000 のマシン間会話に対する 200 の実験シナリオを活用して、一連の注目すべき結果を提供します。
まず、パワーダイナミクスが作用するマルチエージェント設定で一部のモデルが会話の実行に一貫して失敗する様子を文書化します。
次に、成功したインタラクションに参加することができたモデルについて、エージェントが達成するために設定された目標が主にその説得力にどのように影響を与える一方、エージェントの反社会的行動に関しては無視できるほどの影響を与えることを経験的に示します。
第三に、エージェントのペルソナ、特に看守の人格が、囚人からの説得が成功する可能性と反社会的行動の出現の両方をどのように推進するかを強調します。
第 4 に、特定の人格を明示的に促さなくても、エージェントの役割を割り当てるだけで反社会的行動が現れることを示します。
これらの結果は、対話型 LLM エージェントの開発およびその社会的影響に関する議論に影響を与えます。

要約(オリジナル)

As Large Language Model (LLM)-based agents become increasingly autonomous and will more freely interact with each other, studying interactions between them becomes crucial to anticipate emergent phenomena and potential risks. Drawing inspiration from the widely popular Stanford Prison Experiment, we contribute to this line of research by studying interaction patterns of LLM agents in a context characterized by strict social hierarchy. We do so by specifically studying two types of phenomena: persuasion and anti-social behavior in simulated scenarios involving a guard and a prisoner agent who seeks to achieve a specific goal (i.e., obtaining additional yard time or escape from prison). Leveraging 200 experimental scenarios for a total of 2,000 machine-machine conversations across five different popular LLMs, we provide a set of noteworthy findings. We first document how some models consistently fail in carrying out a conversation in our multi-agent setup where power dynamics are at play. Then, for the models that were able to engage in successful interactions, we empirically show how the goal that an agent is set to achieve impacts primarily its persuasiveness, while having a negligible effect with respect to the agent’s anti-social behavior. Third, we highlight how agents’ personas, and particularly the guard’s personality, drive both the likelihood of successful persuasion from the prisoner and the emergence of anti-social behaviors. Fourth, we show that even without explicitly prompting for specific personalities, anti-social behavior emerges by simply assigning agents’ roles. These results bear implications for the development of interactive LLM agents as well as the debate on their societal impact.

arxiv情報

著者 Gian Maria Campedelli,Nicolò Penzo,Massimo Stefan,Roberto Dessì,Marco Guerini,Bruno Lepri,Jacopo Staiano
発行日 2024-10-09 17:45:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CY, cs.MA パーマリンク