要約
マルチロボット システムのネットワーク化された性質により、マルチエージェント強化学習のコンテキストにおいて課題が生じます。
集中制御ポリシーはロボットの数が増加しても拡張できませんが、独立した制御ポリシーは他のロボットから提供される情報を活用しないため、協力-競争タスクでのパフォーマンスが低下します。
この研究では、スケーラブルであり、各ロボットに利用可能なすべての情報を利用できる分散型マルチロボット制御ポリシーを学習できる、物理情報に基づいた強化学習アプローチを提案します。
私たちのアプローチには 3 つの重要な特徴があります。
まず、物理的なロボット システムのエネルギー保存特性とロボット チームの相互作用のネットワーク化された性質を考慮して、ポリシー表現にポート ハミルトン構造を課します。
2 番目に、自己注意を使用して、インタラクション グラフからの各ロボットの時間変化情報を処理できるまばらなポリシー表現を確保します。
第三に、自己注意ポートハミルトニアン制御ポリシーによってパラメータ化されたソフトアクター批判的強化学習アルゴリズムを提示します。これは、価値関数因数分解の必要性を克服しながら、トレーニング中のロボット間の相関を説明します。
さまざまなマルチロボット シナリオでの広範なシミュレーションにより、提案されたアプローチの成功が実証され、スケーラビリティにおいて以前のマルチロボット強化学習ソリューションを上回り、同時に同等または優れたパフォーマンス (平均累積報酬が現状よりも最大 2 倍大きい) を達成しています。
トレーニング時のロボットの数よりも 6 倍多いロボット チームを使用したアート)。
要約(オリジナル)
The networked nature of multi-robot systems presents challenges in the context of multi-agent reinforcement learning. Centralized control policies do not scale with increasing numbers of robots, whereas independent control policies do not exploit the information provided by other robots, exhibiting poor performance in cooperative-competitive tasks. In this work we propose a physics-informed reinforcement learning approach able to learn distributed multi-robot control policies that are both scalable and make use of all the available information to each robot. Our approach has three key characteristics. First, it imposes a port-Hamiltonian structure on the policy representation, respecting energy conservation properties of physical robot systems and the networked nature of robot team interactions. Second, it uses self-attention to ensure a sparse policy representation able to handle time-varying information at each robot from the interaction graph. Third, we present a soft actor-critic reinforcement learning algorithm parameterized by our self-attention port-Hamiltonian control policy, which accounts for the correlation among robots during training while overcoming the need of value function factorization. Extensive simulations in different multi-robot scenarios demonstrate the success of the proposed approach, surpassing previous multi-robot reinforcement learning solutions in scalability, while achieving similar or superior performance (with averaged cumulative reward up to x2 greater than the state-of-the-art with robot teams x6 larger than the number of robots at training time).
arxiv情報
著者 | Eduardo Sebastian,Thai Duong,Nikolay Atanasov,Eduardo Montijano,Carlos Sagues |
発行日 | 2023-12-30 12:12:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google