要約
大規模言語モデル (LLM) は、非常に高度な自然言語処理を備えており、優れた推論、ツールの使用法、およびメモリ機能を実証しています。
LLM のアプリケーションがマルチエージェント環境に拡大するにつれて、LLM の推論、計画、コラボレーション、その他の社会的能力を捉える包括的な評価フレームワークの必要性が生じます。
この研究では、マルチエージェント設定内で LLM を評価するために特別に設計された新しい競争ベースのベンチマーク フレームワークを導入し、LLM の判断、推論、欺瞞、自己認識、協力、調整、合理性を評価する定量的な指標を提供します。
2 つの社会的推理ゲームと 3 つのゲーム理論シナリオを利用して、多様な環境を作成します。
私たちのフレームは確率的グラフィック モデリング (PGM) 手法で強化されており、複雑な社会的および認知的次元をナビゲートする際の LLM の能力が強化されています。
私たちは 7 つの LLM を評価し、最も強い GPT o1 と最も弱い Llama-2-70B の間に 3 倍を超える大きな能力差があることを定量的に浮き彫りにしました。
また、PGM の強化により、選択されたすべてのモデルの能力が平均 37% 向上することも確認されています。
私たちのデータとコードは、https://github.com/cathyxl/MAgIC にあります。
要約(オリジナル)
Large Language Models (LLMs) have significantly advanced natural language processing, demonstrating exceptional reasoning, tool usage, and memory capabilities. As their applications expand into multi-agent environments, there arises a need for a comprehensive evaluation framework that captures LLMs’ reasoning, planning, collaboration, and other social abilities. This work introduces a novel competition-based benchmark framework specifically designed to assess LLMs within multi-agent settings, providing quantitative metrics to evaluate their judgment, reasoning, deception, self-awareness, cooperation, coordination, and rationality. We utilize two social deduction games alongside three game-theory scenarios to create diverse environments. Our frame is fortified with the probabilistic graphic modeling (PGM) method, enhancing the LLMs’ capabilities in navigating complex social and cognitive dimensions. We evaluate seven LLMs, quantitatively highlighting a significant capability gap of over threefold between the strongest, GPT o1, and the weakest, Llama-2-70B. It also confirms that our PGM enhancement boosts the abilities of all selected models by an average of 37%. Our data and code can be found here https://github.com/cathyxl/MAgIC.
arxiv情報
著者 | Lin Xu,Zhiyuan Hu,Daquan Zhou,Hongyu Ren,Zhen Dong,Kurt Keutzer,See Kiong Ng,Jiashi Feng |
発行日 | 2024-11-27 12:25:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google