要約
マルチエージェント設定における部分的な可観測性と確率性は、通信を介して他のエージェントに関するより多くの情報にアクセスすることで軽減できます。
ただし、循環依存関係によりエージェントが実際のアクションを同時に相互に通信できないため、調整の問題は依然として存在します。
本稿では、新しい多値通信方式である Sequential Communication (SeqComm) を提案します。
SeqComm はエージェントを非同期的に処理し (上位レベルのエージェントが下位レベルのエージェントより先に決定を下します)、2 つの通信フェーズがあります。
交渉フェーズでは、エージェントは、観察の隠れた状態を伝達し、環境ダイナミクスをモデル化することで得られる意図の値を比較することによって、意思決定の優先順位を決定します。
起動フェーズでは、上位レベルのエージェントが主導権を持って意思決定を行い、そのアクションを下位レベルのエージェントに伝えます。
理論的には、SeqComm によって学習されたポリシーが単調に改善し、収束することが保証されていることが証明されています。
我々は経験的に、SeqComm がさまざまなマルチエージェント協調タスクにおいて既存の手法よりも優れたパフォーマンスを発揮することを示しています。
要約(オリジナル)
The partial observability and stochasticity in multi-agent settings can be mitigated by accessing more information about others via communication. However, the coordination problem still exists since agents cannot communicate actual actions with each other at the same time due to the circular dependencies. In this paper, we propose a novel multi-level communication scheme, Sequential Communication (SeqComm). SeqComm treats agents asynchronously (the upper-level agents make decisions before the lower-level ones) and has two communication phases. In the negotiation phase, agents determine the priority of decision-making by communicating hidden states of observations and comparing the value of intention, obtained by modeling the environment dynamics. In the launching phase, the upper-level agents take the lead in making decisions and then communicate their actions with the lower-level agents. Theoretically, we prove the policies learned by SeqComm are guaranteed to improve monotonically and converge. Empirically, we show that SeqComm outperforms existing methods in various cooperative multi-agent tasks.
arxiv情報
著者 | Ziluo Ding,Zeyuan Liu,Zhirui Fang,Kefan Su,Liwen Zhu,Zongqing Lu |
発行日 | 2024-11-05 15:05:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google