要約
効果的なコラボレーションと複雑な状況の評価を必要とする対話型の現実世界のタスクに取り組むために、マルチエージェント システムで大規模言語モデル (LLM) を使用することへの関心が高まっています。
しかし、マルチエージェント設定における LLM のコミュニケーション能力と意思決定能力については、まだ限られた理解しかありません。
交渉の基本的なタスクは、協力、競争、操作の可能性など、コミュニケーションの多くの重要な特徴に及びます。
したがって、LLM を評価するためにスコア可能なネゴシエーションを使用することを提案します。
私たちは、複雑なマルチエージェント、マルチイシュー、そして意味的に豊富な交渉ゲームのテストベッドを作成します。
合意に達するには、エージェントが強力な算術、推論、探索、計画能力を備え、動的かつ複数ターンのセットアップに統合する必要があります。
私たちは、エージェントのパフォーマンスと割り当てられた役割との整合性を厳密に定量化するために、複数の指標を提案します。
新しいゲームを作成し、ゲームの難易度を上げてベンチマークを進化させるための手順を提供します。
重要なのは、貪欲で敵対的なプレイヤーの影響を受けるエージェント間の相互作用ダイナミクスなど、重要な安全性の側面を評価することです。
私たちのベンチマークは非常に困難です。
GPT-3.5 および小型モデルはほとんどが失敗し、GPT-4 および SoTA 大型モデル (Llama-3 70b など) は依然としてパフォーマンスが劣ります。
要約(オリジナル)
There is an growing interest in using Large Language Models (LLMs) in multi-agent systems to tackle interactive real-world tasks that require effective collaboration and assessing complex situations. Yet, we still have a limited understanding of LLMs’ communication and decision-making abilities in multi-agent setups. The fundamental task of negotiation spans many key features of communication, such as cooperation, competition, and manipulation potentials. Thus, we propose using scorable negotiation to evaluate LLMs. We create a testbed of complex multi-agent, multi-issue, and semantically rich negotiation games. To reach an agreement, agents must have strong arithmetic, inference, exploration, and planning capabilities while integrating them in a dynamic and multi-turn setup. We propose multiple metrics to rigorously quantify agents’ performance and alignment with the assigned role. We provide procedures to create new games and increase games’ difficulty to have an evolving benchmark. Importantly, we evaluate critical safety aspects such as the interaction dynamics between agents influenced by greedy and adversarial players. Our benchmark is highly challenging; GPT-3.5 and small models mostly fail, and GPT-4 and SoTA large models (e.g., Llama-3 70b) still underperform.
arxiv情報
著者 | Sahar Abdelnabi,Amr Gomaa,Sarath Sivaprasad,Lea Schönherr,Mario Fritz |
発行日 | 2024-06-10 14:43:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google