要約
急速に進化する人工知能の分野では、大規模言語モデル (LLM) の安全な意思決定を確保することが重要な課題です。
このペーパーでは、LLM における戦略的相互作用と協力的な意思決定を研究するために設計されたシミュレーション プラットフォームである Governance of the Commons Simulation (GovSim) について紹介します。
このシミュレーション環境を通じて、AI エージェント間のリソース共有のダイナミクスを調査し、倫理的配慮、戦略計画、交渉スキルの重要性を強調します。
GovSim は多用途であり、LLM エージェントを含むあらゆるテキストベースのエージェントをサポートします。
Generative Agent フレームワークを使用して、さまざまな LLM の統合を容易にする標準エージェントを作成します。
私たちの調査結果では、GovSim 内では、テストされた 15 個の LLM のうち 2 個だけが持続可能な結果を達成できたことが明らかになり、共有リソースを管理するモデルの能力に大きなギャップがあることを示しています。
さらに、エージェントの通信能力を奪うことにより、エージェントが共有リソースを過剰に使用することがわかり、協力のためのコミュニケーションの重要性が浮き彫りになりました。
興味深いことに、ほとんどの LLM には普遍化された仮説を立てる能力が欠けており、これは彼らの推論スキルの重大な弱点を浮き彫りにしています。
当社は、シミュレーション環境、エージェント プロンプト、包括的な Web インターフェイスを含む、研究結果の完全なスイートをオープンソースにしています。
要約(オリジナル)
In the rapidly evolving field of artificial intelligence, ensuring safe decision-making of Large Language Models (LLMs) is a significant challenge. This paper introduces Governance of the Commons Simulation (GovSim), a simulation platform designed to study strategic interactions and cooperative decision-making in LLMs. Through this simulation environment, we explore the dynamics of resource sharing among AI agents, highlighting the importance of ethical considerations, strategic planning, and negotiation skills. GovSim is versatile and supports any text-based agent, including LLMs agents. Using the Generative Agent framework, we create a standard agent that facilitates the integration of different LLMs. Our findings reveal that within GovSim, only two out of 15 tested LLMs managed to achieve a sustainable outcome, indicating a significant gap in the ability of models to manage shared resources. Furthermore, we find that by removing the ability of agents to communicate, they overuse the shared resource, highlighting the importance of communication for cooperation. Interestingly, most LLMs lack the ability to make universalized hypotheses, which highlights a significant weakness in their reasoning skills. We open source the full suite of our research results, including the simulation environment, agent prompts, and a comprehensive web interface.
arxiv情報
著者 | Giorgio Piatti,Zhijing Jin,Max Kleiman-Weiner,Bernhard Schölkopf,Mrinmaya Sachan,Rada Mihalcea |
発行日 | 2024-04-25 15:59:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google