要約
大規模な言語モデル(LLMS)は、複雑な推論の可能性を示していますが、特に群れの知能のニュアンスを伴う自然な群れの修正の特徴である、限られた局所的な認識とコミュニケーションなど、限られた局所的な認識とコミュニケーションなど、厳格な制約の下で動作する場合、マルチエージェントシステム(MAS)における緊急調整の可能性を示しています。
既存のベンチマークは、エージェントが不完全な空間的情報で動作するときに発生する分散型調整の独自の課題を完全に把握しないことがよくあります。
このギャップを埋めるために、Swarmbenchを紹介します。Swarmbenchは、分散型エージェントとして機能するLLMSの群れインテリジェンス能力を体系的に評価するために設計された新しいベンチマークです。
Swarmbenchは、構成可能な2Dグリッド環境内の5つの基礎MAS調整タスクを備えており、エージェントに主にローカル感覚入力(K X Kビュー)とローカル通信に依存します。
調整の有効性のメトリックを提案し、緊急グループのダイナミクスを分析します。
ゼロショット設定でいくつかの主要なLLMを評価すると、タスク全体で大きなパフォーマンスの変動があり、ローカルの情報制約によってもたらされる困難を強調しています。
いくつかの調整が現れますが、結果は、これらの分散型シナリオの不確実性の下での堅牢な計画と戦略形成の制限を示しています。
群れのような条件下でLLMを評価することは、将来の分散型システムでの可能性を実現するために重要です。
swarmbenchを、定義された機械的特性を備えたカスタマイズ可能でスケーラブルな物理システムに基づいて、オープンで拡張可能なツールキットをリリースします。
環境、プロンプト、評価スクリプト、および生成された包括的な実験データセットを提供し、LLMベースのMAS調整と具体化されたMASの理論的基盤に関する再現可能な研究を促進することを目的としています。
当社のコードリポジトリは、https://github.com/x66cfff/swarmbenchで入手できます。
要約(オリジナル)
Large Language Models (LLMs) show potential for complex reasoning, yet their capacity for emergent coordination in Multi-Agent Systems (MAS) when operating under strict constraints-such as limited local perception and communication, characteristic of natural swarms-remains largely unexplored, particularly concerning the nuances of swarm intelligence. Existing benchmarks often do not fully capture the unique challenges of decentralized coordination that arise when agents operate with incomplete spatio-temporal information. To bridge this gap, we introduce SwarmBench, a novel benchmark designed to systematically evaluate the swarm intelligence capabilities of LLMs acting as decentralized agents. SwarmBench features five foundational MAS coordination tasks within a configurable 2D grid environment, forcing agents to rely primarily on local sensory input (k x k view) and local communication. We propose metrics for coordination effectiveness and analyze emergent group dynamics. Evaluating several leading LLMs in a zero-shot setting, we find significant performance variations across tasks, highlighting the difficulties posed by local information constraints. While some coordination emerges, results indicate limitations in robust planning and strategy formation under uncertainty in these decentralized scenarios. Assessing LLMs under swarm-like conditions is crucial for realizing their potential in future decentralized systems. We release SwarmBench as an open, extensible toolkit-built upon a customizable and scalable physical system with defined mechanical properties. It provides environments, prompts, evaluation scripts, and the comprehensive experimental datasets generated, aiming to foster reproducible research into LLM-based MAS coordination and the theoretical underpinnings of Embodied MAS. Our code repository is available at https://github.com/x66ccff/swarmbench.
arxiv情報
著者 | Kai Ruan,Mowen Huang,Ji-Rong Wen,Hao Sun |
発行日 | 2025-05-07 12:32:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google