Put Your Money Where Your Mouth Is: Evaluating Strategic Planning and Execution of LLM Agents in an Auction Arena

要約

大規模言語モデル (LLM) は、複雑な環境における人間の行動をシミュレートできますか?
LLM は最近、高度な推論スキルを示すことが示されていますが、NLP 評価の多くは依然として静的なベンチマークに依存しています。
これに答えるには、長期計画を伴う競争的で動的なシナリオにおける戦略的推論を精査する評価環境が必要です。
オークション内で LLM を評価するための新しいシミュレーション環境である AucArena を紹介します。この環境は、非常に予測不可能であり、リソースとリスク管理に関連する多くのスキルが必要であると同時に、評価が簡単であるために選択されました。
当社は、最先端の LLM を入札エージェントとして使用して、いくつかの制御されたシミュレーションを実行します。
私たちは、単純なプロンプトを通じて、LLM がオークションに効果的に参加するために必要なスキルの多く (予算の管理、長期的な目標と優先順位の遵守など) を実際に実証していることを発見しました。そのスキルは、モデルに明示的に奨励することで磨かれることがわかりました。
過去のオークションでの適応戦略と観察戦略。
これらの結果は、特に競争環境において、LLM エージェントを使用して複雑な社会力学をモデル化できる可能性を示しているため、重要です。
ただし、個々の LLM の機能にはかなりのばらつきがあることも観察されています。
特に、当社の最も高度なモデル (GPT-4) でさえ、ヒューリスティック ベースラインや人間のエージェントによって上回る場合があり、LLM エージェントの設計がさらに改善される可能性と、エージェントのさらなるテストと改良においてシミュレーション環境が果たせる重要な役割を強調しています。
建築。

要約(オリジナル)

Can Large Language Models (LLMs) simulate human behavior in complex environments? LLMs have recently been shown to exhibit advanced reasoning skills but much of NLP evaluation still relies on static benchmarks. Answering this requires evaluation environments that probe strategic reasoning in competitive, dynamic scenarios that involve long-term planning. We introduce AucArena, a novel simulation environment for evaluating LLMs within auctions, a setting chosen for being highly unpredictable and involving many skills related to resource and risk management, while also being easy to evaluate. We conduct several controlled simulations using state-of-the-art LLMs as bidding agents. We find that through simple prompting, LLMs do indeed demonstrate many of the skills needed for effectively engaging in auctions (e.g., managing budget, adhering to long-term goals and priorities), skills that we find can be sharpened by explicitly encouraging models to be adaptive and observe strategies in past auctions. These results are significant as they show the potential of using LLM agents to model intricate social dynamics, especially in competitive settings. However, we also observe considerable variability in the capabilities of individual LLMs. Notably, even our most advanced models (GPT-4) are occasionally surpassed by heuristic baselines and human agents, highlighting the potential for further improvements in the design of LLM agents and the important role that our simulation environment can play in further testing and refining agent architectures.

arxiv情報

著者 Jiangjie Chen,Siyu Yuan,Rong Ye,Bodhisattwa Prasad Majumder,Kyle Richardson
発行日 2023-10-09 14:22:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク