WiS Platform: Enhancing Evaluation of LLM-Based Multi-Agent Systems Through Game-Based Analysis

要約

大規模言語モデル (LLM) に基づく自律型マルチエージェント システム (MAS) の最近の進歩により、アプリケーション シナリオが強化され、複雑なタスクを処理する LLM の機能が向上しました。
有効性が証明されているにもかかわらず、既存の研究では、LLM ベースの MAS の評価、分析、再現性が依然として困難であることは明らかです。
この論文では、LLM ベースの MAS の研究を促進するために、ゲーム「Who is Spy?」に基づいた LLM ベースの MAS にアクセスして分析するための、オープンでスケーラブルでリアルタイムに更新されるプラットフォームを紹介します。
(WiS)。
私たちのプラットフォームは、次の 3 つの主要な価値を備えています。(1) Hugging Face で利用可能なモデルをサポートする統合モデル評価インターフェイス。
(2) モデル評価用のリアルタイム更新リーダーボード。
(3) LLM の勝率、攻撃、防御戦略、推論を含む総合的な評価。
WiS を厳密にテストするために、さまざまなオープンソースおよびクローズドソースの LLM を対象とした広範な実験を実施しました。その結果、さまざまなエージェントがゲーム内で独特で興味深い動作を示すことがわかりました。
実験結果は、LLM ベースの MAS を評価する際の当社のプラットフォームの有効性と効率を示しています。
私たちのプラットフォームとそのドキュメントは \url{https://whoisspy.ai/} で公開されています。

要約(オリジナル)

Recent advancements in autonomous multi-agent systems (MAS) based on large language models (LLMs) have enhanced the application scenarios and improved the capability of LLMs to handle complex tasks. Despite demonstrating effectiveness, existing studies still evidently struggle to evaluate, analysis, and reproducibility of LLM-based MAS. In this paper, to facilitate the research on LLM-based MAS, we introduce an open, scalable, and real-time updated platform for accessing and analyzing the LLM-based MAS based on the games Who is Spy?’ (WiS). Our platform is featured with three main worths: (1) a unified model evaluate interface that supports models available on Hugging Face; (2) real-time updated leaderboard for model evaluation; (3) a comprehensive evaluation covering game-winning rates, attacking, defense strategies, and reasoning of LLMs. To rigorously test WiS, we conduct extensive experiments coverage of various open- and closed-source LLMs, we find that different agents exhibit distinct and intriguing behaviors in the game. The experimental results demonstrate the effectiveness and efficiency of our platform in evaluating LLM-based MAS. Our platform and its documentation are publicly available at \url{https://whoisspy.ai/}

arxiv情報

著者 Chengwei Hu,Jianhui Zheng,Yancheng He,Hangyu Guo,Junguang Jiang,Han Zhu,Kai Sun,Yuning Jiang,Wenbo Su,Bo Zheng
発行日 2024-12-04 14:45:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク