要約
マルチエージェント強化学習 (MARL) 手法は、マルチエージェント システムの非定常性に問題があり、新しいエージェントでテストすると、オンラインでの適応学習に失敗します。
ここでは、大規模言語モデル (LLM) を活用して、これらの課題に対処できる自律エージェントを作成します。
私たちのエージェントである Hypothetical Minds は、認知にインスピレーションを得たアーキテクチャで構成されており、知覚、記憶、2 つの抽象レベルにわたる階層計画のためのモジュール式コンポーネントを特徴としています。
他のエージェントの戦略に関する仮説を自然言語で生成することにより、高レベルの計画プロセスの足場を築く「心の理論」モジュールを紹介します。
次に、他のエージェントの動作を正しく予測する仮説を強化することで、これらの仮説を評価し、繰り返し改良します。
Hypothetical Minds は、二者ベースの環境と集団ベースの環境の両方を含む、Melting Pot ベンチマークにおけるさまざまな競争、混合動機、および協調ドメインで、以前の LLM エージェントおよび RL ベースラインと比較してパフォーマンスを大幅に向上させます。
さらに、LLM エージェントのベースラインとアブレーションとの比較により、複雑なシナリオを成功させるには仮説の評価と改良の重要性が明らかになります。
要約(オリジナル)
Multi-agent reinforcement learning (MARL) methods struggle with the non-stationarity of multi-agent systems and fail to adaptively learn online when tested with novel agents. Here, we leverage large language models (LLMs) to create an autonomous agent that can handle these challenges. Our agent, Hypothetical Minds, consists of a cognitively-inspired architecture, featuring modular components for perception, memory, and hierarchical planning over two levels of abstraction. We introduce the Theory of Mind module that scaffolds the high-level planning process by generating hypotheses about other agents’ strategies in natural language. It then evaluates and iteratively refines these hypotheses by reinforcing hypotheses that make correct predictions about the other agents’ behavior. Hypothetical Minds significantly improves performance over previous LLM-agent and RL baselines on a range of competitive, mixed motive, and collaborative domains in the Melting Pot benchmark, including both dyadic and population-based environments. Additionally, comparisons against LLM-agent baselines and ablations reveal the importance of hypothesis evaluation and refinement for succeeding on complex scenarios.
arxiv情報
著者 | Logan Cross,Violet Xiang,Agam Bhatia,Daniel LK Yamins,Nick Haber |
発行日 | 2024-07-09 17:57:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google