要約
著名な大規模言語モデルは、多くの領域で人間レベルのパフォーマンスを示し、派生エージェントが人間と社会の相互作用をシミュレートすることさえ可能にします。
実際の研究では、サンドボックス シミュレーションや身体化されたシミュレーターにおける基礎的な言語エージェントの実用性が実証されていますが、現在のソーシャル インテリジェンスのベンチマークは言語レベルにとどまるか、主観的な指標を使用しています。
より現実的で客観的な評価を追求するために、私たちはサンドボックス シミュレーション (STSS) におけるソーシャル タスク ベンチマークを導入します。このベンチマークは、マルチエージェント内での目標達成状況を精査することによって、言語エージェントを \textbf{アクション レベル} で \textbf{客観的に}評価します。
シミュレーション。
さらに、会話シナリオをサンプリングして言語レベルのベンチマークを構築し、経済的に賢明な事前評価を提供し、一般的なベンチマークと一致させます。
エージェント アーキテクチャの重要性を評価するために、既存のエージェントの付属物としてターゲット駆動計画 (TDP) モジュールを実装します。
私たちの評価結果は、STSS ベンチマークが最先端の言語エージェントにとって困難であることを強調しています。
さらに、異なる言語エージェントを効果的に区別し、言語モデルとエージェント アーキテクチャの両方を評価するためのベンチマークとしての有用性を示唆しています。
要約(オリジナル)
Prominent large language models have exhibited human-level performance in many domains, even enabling the derived agents to simulate human and social interactions. While practical works have substantiated the practicability of grounding language agents in sandbox simulation or embodied simulators, current social intelligence benchmarks either stay at the language level or use subjective metrics. In pursuit of a more realistic and objective evaluation, we introduce the Social Tasks in Sandbox Simulation (STSS) benchmark, which assesses language agents \textbf{objectively} at the \textbf{action level} by scrutinizing the goal achievements within the multi-agent simulation. Additionally, we sample conversation scenarios to build a language-level benchmark to provide an economically prudent preliminary evaluation and align with prevailing benchmarks. To gauge the significance of agent architecture, we implement a target-driven planning (TDP) module as an adjunct to the existing agent. Our evaluative findings highlight that the STSS benchmark is challenging for state-of-the-art language agents. Furthermore, it effectively discriminates between distinct language agents, suggesting its usefulness as a benchmark for evaluating both language models and agent architectures.
arxiv情報
著者 | Chenxu Wang,Bin Dai,Huaping Liu,Baoyuan Wang |
発行日 | 2024-04-08 09:25:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google