Multi-agent Policy Reciprocity with Theoretical Guarantee

要約

タイトル:理論的保証を持つ多エージェントポリシー相互性

要約:

– 現代の多エージェント強化学習(RL)アルゴリズムは、さまざまな現実世界の問題を解決するための大きなポテンシャルを持っています。
– しかし、彼らはクロスエージェントの知識を完全に活用してサンプルの複雑さを減らし、性能を改善していません。
– 転送RLは知識共有をサポートしていますが、ハイパーパラメータに敏感で複雑です。
– この問題を解決するために、我々は、各エージェントが一致しない状態でもクロスエージェントポリシーを完全に活用できる新しいマルチエージェントポリシー相互性(PR)フレームワークを提案しています。
– 次に、一致しない状態のための隣接空間を定義し、値反復のためのプラグアンドプレイモジュールを設計し、エージェントがより正確なリターンを推測できるようにします。
– PRの拡張性を高めるために、ディープPRが連続制御タスクに提案されています。
– さらに、理論的分析は、個々の知覚された報酬を通じてエージェントが漸近的に合意に達し、最適な値関数に収束できることを示しています。これは、PRの安定性と効果的なことを意味します。
– 離散的な環境と連続的な環境での実験結果は、PRがさまざまな既存のRLおよび転送RL手法を上回っていることを示しています。

要約(オリジナル)

Modern multi-agent reinforcement learning (RL) algorithms hold great potential for solving a variety of real-world problems. However, they do not fully exploit cross-agent knowledge to reduce sample complexity and improve performance. Although transfer RL supports knowledge sharing, it is hyperparameter sensitive and complex. To solve this problem, we propose a novel multi-agent policy reciprocity (PR) framework, where each agent can fully exploit cross-agent policies even in mismatched states. We then define an adjacency space for mismatched states and design a plug-and-play module for value iteration, which enables agents to infer more precise returns. To improve the scalability of PR, deep PR is proposed for continuous control tasks. Moreover, theoretical analysis shows that agents can asymptotically reach consensus through individual perceived rewards and converge to an optimal value function, which implies the stability and effectiveness of PR, respectively. Experimental results on discrete and continuous environments demonstrate that PR outperforms various existing RL and transfer RL methods.

arxiv情報

著者 Haozhi Wang,Yinchuan Li,Qing Wang,Yunfeng Shao,Jianye Hao
発行日 2023-04-12 06:27:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク