要約
協調タスクにおいて適応的な動作を備えたエージェントを構築することは、マルチエージェント システムの領域における最重要目標となります。
協力的なエージェントを開発するための現在のアプローチは、主に学習ベースの方法に依存しており、そのポリシーの一般化は、トレーニング段階で対話するチームメイトの多様性に大きく依存します。
ただし、そのような依存は、不慣れなチームメイトと協力するときにエージェントの戦略的適応能力を制限し、ゼロショット調整シナリオでは重大な課題になります。
この課題に対処するために、私たちは、大規模言語モデル (LLM) を利用して、チームメイトとの協力を強化するために動作を動的に適応させることができるプロアクティブなエージェントを作成する新しいフレームワークである ProAgent を提案します。
ProAgent は現状を分析し、観察からチームメイトの意図を推測することができます。
次に、チームメイトのその後の実際の行動に合わせて信念を更新します。
さらに、ProAgent は高度なモジュール性と解釈可能性を示し、さまざまな調整シナリオに簡単に統合できます。
Overcooked-AI 環境内で行われた実験評価により、ProAgent のパフォーマンスが顕著に優れていることが明らかになり、AI エージェントと連携する場合、セルフプレイおよび母集団ベースのトレーニングに基づく 5 つの方法を上回りました。
さらに、人間の代理モデルと連携すると、そのパフォーマンスは現在の最先端の方法と比較して平均 10% を超える向上を示します。
私たちのプロジェクトの詳細については、~\url{https://pku-proagent.github.io} をご覧ください。
要約(オリジナル)
Building agents with adaptive behavior in cooperative tasks stands as a paramount goal in the realm of multi-agent systems. Current approaches to developing cooperative agents rely primarily on learning-based methods, whose policy generalization depends heavily on the diversity of teammates they interact with during the training phase. Such reliance, however, constrains the agents’ capacity for strategic adaptation when cooperating with unfamiliar teammates, which becomes a significant challenge in zero-shot coordination scenarios. To address this challenge, we propose ProAgent, a novel framework that harnesses large language models (LLMs) to create proactive agents capable of dynamically adapting their behavior to enhance cooperation with teammates. ProAgent can analyze the present state, and infer the intentions of teammates from observations. It then updates its beliefs in alignment with the teammates’ subsequent actual behaviors. Moreover, ProAgent exhibits a high degree of modularity and interpretability, making it easily integrated into various of coordination scenarios. Experimental evaluations conducted within the Overcooked-AI environment unveil the remarkable performance superiority of ProAgent, outperforming five methods based on self-play and population-based training when cooperating with AI agents. Furthermore, in partnered with human proxy models, its performance exhibits an average improvement exceeding 10% compared to the current state-of-the-art method. For more information about our project, please visit~\url{https://pku-proagent.github.io}.
arxiv情報
著者 | Ceyao Zhang,Kaijie Yang,Siyi Hu,Zihao Wang,Guanghe Li,Yihang Sun,Cheng Zhang,Zhaowei Zhang,Anji Liu,Song-Chun Zhu,Xiaojun Chang,Junge Zhang,Feng Yin,Yitao Liang,Yaodong Yang |
発行日 | 2024-01-11 16:25:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google