要約
複雑な状況の評価が必要な現実世界のタスクに取り組むエージェントとして大規模言語モデル (LLM) を使用することへの関心が高まっています。
しかし、LLM の推論能力と意思決定能力については、専用の評価ベンチマークが不足していることもあり、私たちの理解は限られています。
交渉と妥協は日常のコミュニケーションとコラボレーションの重要な側面であるため、LLM の新しい評価フレームワークとして得点可能な交渉ゲームを使用することを提案します。
私たちは、簡単に難易度を調整できる、多様なテキストベース、マルチエージェント、マルチイシュー、意味的に豊富な交渉ゲームのテストベッドを作成します。
この課題を解決するには、エージェントは強力な算術、推論、探索、計画の能力を備え、それらをシームレスに統合する必要があります。
体系的なゼロショット思考連鎖プロンプト (CoT) を通じて、エージェントが交渉し、一貫して取引を成功させることができることを示します。
複数の指標を使用してパフォーマンスを定量化し、GPT-4 と以前のモデルの間に大きなギャップがあることを観察しました。
重要なのは、新しいゲームとセットアップへの一般化をテストすることです。
最後に、これらのゲームが、貪欲で敵対的なプレイヤーが存在する場合のエージェント間の相互作用のダイナミクスなど、他の重要な側面を評価するのに役立つことを示します。
要約(オリジナル)
There is a growing interest in using Large Language Models (LLMs) as agents to tackle real-world tasks that may require assessing complex situations. Yet, we have a limited understanding of LLMs’ reasoning and decision-making capabilities, partly stemming from a lack of dedicated evaluation benchmarks. As negotiating and compromising are key aspects of our everyday communication and collaboration, we propose using scorable negotiation games as a new evaluation framework for LLMs. We create a testbed of diverse text-based, multi-agent, multi-issue, semantically rich negotiation games, with easily tunable difficulty. To solve the challenge, agents need to have strong arithmetic, inference, exploration, and planning capabilities, while seamlessly integrating them. Via a systematic zero-shot Chain-of-Thought prompting (CoT), we show that agents can negotiate and consistently reach successful deals. We quantify the performance with multiple metrics and observe a large gap between GPT-4 and earlier models. Importantly, we test the generalization to new games and setups. Finally, we show that these games can help evaluate other critical aspects, such as the interaction dynamics between agents in the presence of greedy and adversarial players.
arxiv情報
著者 | Sahar Abdelnabi,Amr Gomaa,Sarath Sivaprasad,Lea Schönherr,Mario Fritz |
発行日 | 2023-09-29 13:33:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google