要約
大規模な言語モデル(LLMS)の急速な上昇は、人工知能(AI)の研究をエージェントシステムに向けてシフトし、エージェンシーのより弱く柔軟な概念の使用を動機付けました。
ただし、このシフトは、LLMベースのエージェントが、特にゲーム理論の設定で、人間の戦略的推論を複製する程度について重要な疑問を提起します。
これに関連して、3つのエージェントデザインを評価することにより、人工的な推論者のパフォーマンスを形作る際のエージェントの洗練度の役割を調べます:単純なゲーム理論モデル、エージェントとしての非構造化されたLLM-AS-A-ASENTモデル、および従来のエージェントフレームワークに統合されたLLM。
Guessing Gamesをテストベッドとして使用して、一般的な推論パターンと個々の役割ベースの目標を越えて、これらのエージェントを人間の参加者に対してベンチマークしました。
さらに、トレーニング分布を超えて一般化するエージェントの能力を評価するために、難読化されたゲームシナリオを導入しました。
25のエージェント構成にわたって2000を超える推論サンプルをカバーする分析は、人間に触発された認知構造が、人間の戦略的行動とのLLMエージェントの整合性を高めることができることを示しています。
それでも、エージェントの設計の複雑さと人間の責任との関係は非線形であり、基礎となるLLM機能への重要な依存を強調し、単純なアーキテクチャ増強の制限を示唆しています。
要約(オリジナル)
The rapid rise of large language models (LLMs) has shifted artificial intelligence (AI) research toward agentic systems, motivating the use of weaker and more flexible notions of agency. However, this shift raises key questions about the extent to which LLM-based agents replicate human strategic reasoning, particularly in game-theoretic settings. In this context, we examine the role of agentic sophistication in shaping artificial reasoners’ performance by evaluating three agent designs: a simple game-theoretic model, an unstructured LLM-as-agent model, and an LLM integrated into a traditional agentic framework. Using guessing games as a testbed, we benchmarked these agents against human participants across general reasoning patterns and individual role-based objectives. Furthermore, we introduced obfuscated game scenarios to assess agents’ ability to generalise beyond training distributions. Our analysis, covering over 2000 reasoning samples across 25 agent configurations, shows that human-inspired cognitive structures can enhance LLM agents’ alignment with human strategic behaviour. Still, the relationship between agentic design complexity and human-likeness is non-linear, highlighting a critical dependence on underlying LLM capabilities and suggesting limits to simple architectural augmentation.
arxiv情報
著者 | Vince Trencsenyi,Agnieszka Mensfelt,Kostas Stathis |
発行日 | 2025-05-14 13:51:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google