SPIN-Bench: How Well Do LLMs Plan Strategically and Reason Socially?

要約

社会的相互作用における推論と戦略的行動は、知性の特徴です。
この形式の推論は、静的な設定での孤立した計画または推論タスク(数学の問題解決など)よりもはるかに洗練されています。
この論文では、戦略的計画、相互作用、交渉(スピンベンチ)を提示します。これは、戦略的計画と社会的推論の知性を測定するために設計された新しいマルチドメイン評価です。
既存のベンチマークの多くは狭い計画または単一エージェントの推論に焦点を当てていますが、スピンベンチは、クラシックPDDLタスク、競争力のあるボードゲーム、協力カードゲーム、および1つの統一されたフレームワークのマルチエージェントネゴシエーションシナリオを組み合わせています。
フレームワークには、ベンチマークと、AIエージェントの推論と戦略的行動をテストするためのさまざまなソーシャル設定をシミュレートおよび評価するアリーナの両方が含まれています。
体系的に変化するアクションスペース、状態の複雑さ、および相互作用するエージェントの数によってベンチマークスピンベンチを策定し、成功が系統的で段階的な意思決定だけでなく、他の(敵対的または協同組合)参加者の概念的推論に依存するさまざまな社会的設定をシミュレートします。
私たちの実験では、現代のLLMが基本的な事実の検索と短距離計画を合理的にうまく処理しますが、大きな状態空間を介した深いマルチホップ推論と不確実性の下での社会的に熟練した調整を必要とするタスクで重要なパフォーマンスのボトルネックに遭遇することが明らかになりました。
スピンベンチは、堅牢なマルチエージェント計画、社会的推論、および人間のチームの将来の研究の触媒として想定しています。
プロジェクトWebサイト:https://spinbench.github.io/

要約(オリジナル)

Reasoning and strategic behavior in social interactions is a hallmark of intelligence. This form of reasoning is significantly more sophisticated than isolated planning or reasoning tasks in static settings (e.g., math problem solving). In this paper, we present Strategic Planning, Interaction, and Negotiation (SPIN-Bench), a new multi-domain evaluation designed to measure the intelligence of strategic planning and social reasoning. While many existing benchmarks focus on narrow planning or single-agent reasoning, SPIN-Bench combines classical PDDL tasks, competitive board games, cooperative card games, and multi-agent negotiation scenarios in one unified framework. The framework includes both a benchmark as well as an arena to simulate and evaluate the variety of social settings to test reasoning and strategic behavior of AI agents. We formulate the benchmark SPIN-Bench by systematically varying action spaces, state complexity, and the number of interacting agents to simulate a variety of social settings where success depends on not only methodical and step-wise decision making, but also conceptual inference of other (adversarial or cooperative) participants. Our experiments reveal that while contemporary LLMs handle basic fact retrieval and short-range planning reasonably well, they encounter significant performance bottlenecks in tasks requiring deep multi-hop reasoning over large state spaces and socially adept coordination under uncertainty. We envision SPIN-Bench as a catalyst for future research on robust multi-agent planning, social reasoning, and human–AI teaming. Project Website: https://spinbench.github.io/

arxiv情報

著者 Jianzhu Yao,Kevin Wang,Ryan Hsieh,Haisu Zhou,Tianqing Zou,Zerui Cheng,Zhangyang Wang,Pramod Viswanath
発行日 2025-04-10 15:18:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク