要約
大規模言語モデル (LLM) は、自然言語処理の分野で大きな進歩を遂げ、推論、ツールの使用法、および記憶において優れた能力を示しています。
彼らのアプリケーションがマルチエージェント環境に拡張されるにつれ、推論、計画、コラボレーションなどにおける彼らの能力を把握する包括的な評価フレームワークの必要性が生じています。
この研究では、マルチエージェント設定内で LLM を評価するために特別に調整された新しいベンチマーク フレームワークを導入し、LLM の判断、推論、欺瞞、自己認識、協力、調整、合理性を評価するための定量的な指標を提供します。
私たちは、Chameleon や Undercover などのゲームと、コスト共有、マルチプレイヤー囚人のジレンマ、公共財などのゲーム理論シナリオを利用して、多様なテスト環境を作成します。
私たちのフレームワークは確率的グラフィカル モデリング (PGM) 手法で強化されており、複雑な社会的および認知的側面をナビゲートする際の LLM の能力を強化しています。
このベンチマークでは、異なる LLM を搭載した 7 つのマルチエージェント システムを評価し、最も強力な GPT-4 と最も弱い Llama-2-70B の間に 3 倍を超える大きな機能差があることを定量的に明らかにしています。
また、PGM の強化により、選択されたすべてのモデルの固有の能力が平均 50% 向上することも確認されています。
私たちのコードは https://github.com/cathyxl/MAgIC でリリースされています。
要約(オリジナル)
Large Language Models (LLMs) have marked a significant advancement in the field of natural language processing, demonstrating exceptional capabilities in reasoning, tool usage, and memory. As their applications extend into multi-agent environments, a need has arisen for a comprehensive evaluation framework that captures their abilities in reasoning, planning, collaboration, and more. This work introduces a novel benchmarking framework specifically tailored to assess LLMs within multi-agent settings, providing quantitative metrics to evaluate their judgment, reasoning, deception, self-awareness, cooperation, coordination, and rationality. We utilize games such as Chameleon and Undercover, alongside game theory scenarios like Cost Sharing, Multi-player Prisoner’s Dilemma, and Public Good, to create diverse testing environments. Our framework is fortified with the Probabilistic Graphical Modeling (PGM) method, enhancing the LLMs’ capabilities in navigating complex social and cognitive dimensions. The benchmark evaluates seven multi-agent systems powered by different LLMs, quantitatively highlighting a significant capability gap over threefold between the strongest, GPT-4, and the weakest, Llama-2-70B. It also confirms that our PGM enhancement boosts the inherent abilities of all selected models by 50% on average. Our codes are released here https://github.com/cathyxl/MAgIC.
arxiv情報
著者 | Lin Xu,Zhiyuan Hu,Daquan Zhou,Hongyu Ren,Zhen Dong,Kurt Keutzer,See Kiong Ng,Jiashi Feng |
発行日 | 2023-11-16 11:40:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google