How Far Are We on the Decision-Making of LLMs? Evaluating LLMs’ Gaming Ability in Multi-Agent Environments

要約

意思決定は、さまざまなタイプの能力を必要とする複雑なタスクであり、大規模言語モデル (LLM) を評価するための優れたフレームワークを提供します。
私たちの研究では、確立された分野であるゲーム理論のレンズを通して、LLM の意思決定能力を調査しています。
特に、3 人以上のエージェントの同時参加をサポートするゲームに重点を置いています。
続いて、8 つの古典的なマルチエージェント ゲームを含むフレームワーク GAMA-Bench を紹介します。
これらのゲームにおけるモデルのパフォーマンスを定量的に評価するためのスコアリング スキームを設計します。
GAMA-Bench を通じて、LLM の堅牢性、汎用性、強化戦略を調査します。
結果は、GPT-3.5 が満足のいく堅牢性を示している一方で、その一般化可能性が比較的限られていることが明らかになりました。
ただし、思考の連鎖などのアプローチによってパフォーマンスを向上させることができます。
さらに、さまざまな LLM にわたって評価を実施したところ、GPT-4 が GAMA-Bench で他のモデルより優れたパフォーマンスを示し、60.5 のスコアを達成したことがわかりました。
さらに、Gemini-1.0-Pro と GPT-3.5 (0613、1106、0125) は、GAMA-Bench で同様のインテリジェンスを示します。
コードと実験結果は、https://github.com/CUHK-ARISE/GAMABench 経由で公開されています。

要約(オリジナル)

Decision-making, a complicated task requiring various types of abilities, presents an excellent framework for assessing Large Language Models (LLMs). Our research investigates LLMs’ decision-making capabilities through the lens of a well-established field, Game Theory. We focus specifically on games that support the participation of more than two agents simultaneously. Subsequently, we introduce our framework, GAMA-Bench, including eight classical multi-agent games. We design a scoring scheme to assess a model’s performance in these games quantitatively. Through GAMA-Bench, we investigate LLMs’ robustness, generalizability, and enhancement strategies. Results reveal that while GPT-3.5 shows satisfying robustness, its generalizability is relatively limited. However, its performance can be improved through approaches such as Chain-of-Thought. Additionally, we conduct evaluations across various LLMs and find that GPT-4 outperforms other models on GAMA-Bench, achieving a score of 60.5. Moreover, Gemini-1.0-Pro and GPT-3.5 (0613, 1106, 0125) demonstrate similar intelligence on GAMA-Bench. The code and experimental results are made publicly available via https://github.com/CUHK-ARISE/GAMABench.

arxiv情報

著者 Jen-tse Huang,Eric John Li,Man Ho Lam,Tian Liang,Wenxuan Wang,Youliang Yuan,Wenxiang Jiao,Xing Wang,Zhaopeng Tu,Michael R. Lyu
発行日 2024-04-25 15:04:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク