How Far Are We on the Decision-Making of LLMs? Evaluating LLMs’ Gaming Ability in Multi-Agent Environments

要約

意思決定は、様々な種類の能力を必要とする複雑なタスクであり、大規模言語モデル(LLM)を評価するための優れたフレームワークを提示する。我々の研究では、ゲーム理論のレンズを通してLLMの意思決定能力を調査している。特に、2人以上のエージェントが同時に参加できるゲームに焦点を当てている。マルチエージェント環境におけるLLMのゲーム能力を評価するGAMA($gamma$)-Benchを紹介する。gamma$-Benchには、8つの古典的なマルチエージェントゲームと、LLMの性能を定量的に評価するために特別に設計された採点スキームが含まれる。gamma$-Benchを活用して、LLMの頑健性、汎用性、強化戦略を調査する。その結果、GPT-3.5は満足できる頑健性を示すが、その汎化性は比較的限定的であることが分かった。しかし、その性能はChain-of-Thoughtのようなアプローチによって向上させることができる。さらに、GPT-3.5、GPT-4、Gemini、LLaMA-3.1、Mixtral、Qwen-2の6つのモデルから12のバージョンを評価した。その結果、Gemini-1.5-Proが$100$中$63.8$のスコアで他のモデルを凌駕し、次いでLLaMA-3.1-70Bが$60.9$、GPT-4が$60.5$であった。コードと実験結果はhttps://github.com/CUHK-ARISE/GAMABench。

要約(オリジナル)

Decision-making, a complicated task requiring various types of abilities, presents an excellent framework for assessing Large Language Models (LLMs). Our research investigates decision-making capabilities of LLMs through the lens of Game Theory. We focus specifically on games that support the simultaneous participation of more than two agents. We introduce GAMA($\gamma$)-Bench, which evaluates LLMs’ Gaming Ability in Multi-Agent environments. $\gamma$-Bench includes eight classical multi-agent games and a scoring scheme specially designed to quantitatively assess LLMs’ performance. Leveraging $\gamma$-Bench, we investigate LLMs’ robustness, generalizability, and strategies for enhancement. Results reveal that while GPT-3.5 shows satisfying robustness, its generalizability is relatively limited. However, its performance can be improved through approaches such as Chain-of-Thought. Additionally, we evaluate twelve versions from six models, including GPT-3.5, GPT-4, Gemini, LLaMA-3.1, Mixtral, and Qwen-2. We find that Gemini-1.5-Pro outperforms other models with a score of $63.8$ out of $100$, followed by LLaMA-3.1-70B and GPT-4 with scores of $60.9$ and $60.5$, respectively. The code and experimental results are made publicly available via https://github.com/CUHK-ARISE/GAMABench.

arxiv情報

著者 Jen-tse Huang,Eric John Li,Man Ho Lam,Tian Liang,Wenxuan Wang,Youliang Yuan,Wenxiang Jiao,Xing Wang,Zhaopeng Tu,Michael R. Lyu
発行日 2024-09-03 01:14:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL パーマリンク