要約
生成フロー ネットワーク (GFlowNets) は、軌跡の最終状態が報酬に比例する分布から多様な軌跡を生成することを目的としており、探索的制御タスクの強化学習の強力な代替手段として機能します。
ただし、GFlowNets の個別フロー マッチング制約により、マルチ エージェント システム、特に連続的な共同制御問題へのアプリケーションが制限されます。
この論文では、複数のエージェントがさまざまな構成の連続オブジェクトに対して協調探索を実行できるようにする、新しいマルチエージェント生成連続フロー ネットワーク (MACFN) 手法を提案します。
技術的には、MACFN は、集中型のグローバル フロー ベースのマッチング方式で、分散型の個別フロー ベースのポリシーをトレーニングします。
集中トレーニング中に、MACFN は連続フロー分解ネットワークを導入して、グローバル報酬のみが存在する場合の各エージェントのフロー寄与を推定します。
その後、エージェントは、割り当てられたローカル フローのみに基づいて分散型の方法でアクションを実行し、報酬に比例した共同ポリシーの配分を形成できます。
連続フロー分解の表現力を保証するために、分解ネットワーク上の一貫性条件を理論的に導出します。
実験結果は、提案された方法が最先端の対応物よりも優れた結果とより優れた探査能力をもたらすことを示しています。
私たちのコードは https://github.com/isluoshuang/MACFN で入手できます。
要約(オリジナル)
Generative Flow Networks (GFlowNets) aim to generate diverse trajectories from a distribution in which the final states of the trajectories are proportional to the reward, serving as a powerful alternative to reinforcement learning for exploratory control tasks. However, the individual-flow matching constraint in GFlowNets limits their applications for multi-agent systems, especially continuous joint-control problems. In this paper, we propose a novel Multi-Agent generative Continuous Flow Networks (MACFN) method to enable multiple agents to perform cooperative exploration for various compositional continuous objects. Technically, MACFN trains decentralized individual-flow-based policies in a centralized global-flow-based matching fashion. During centralized training, MACFN introduces a continuous flow decomposition network to deduce the flow contributions of each agent in the presence of only global rewards. Then agents can deliver actions solely based on their assigned local flow in a decentralized way, forming a joint policy distribution proportional to the rewards. To guarantee the expressiveness of continuous flow decomposition, we theoretically derive a consistency condition on the decomposition network. Experimental results demonstrate that the proposed method yields results superior to the state-of-the-art counterparts and better exploration capability. Our code is available at https://github.com/isluoshuang/MACFN.
arxiv情報
著者 | Shuang Luo,Yinchuan Li,Shunyu Liu,Xu Zhang,Yunfeng Shao,Chao Wu |
発行日 | 2024-08-13 14:12:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google