Physics-Informed Multi-Agent Reinforcement Learning for Distributed Multi-Robot Problems

要約

マルチロボットシステムのネットワーク化された性質は、マルチエージェント強化学習のコンテキストで課題を提示します。
集中型制御ポリシーは、ロボットの数が増えて拡大しませんが、独立した制御ポリシーは他のロボットから提供される情報を活用せず、協力競争的タスクのパフォーマンスが低いことを示しています。
この作業では、物理学に基づいた強化学習アプローチを提案します。これは、スケーラブルであり、各ロボットに利用可能なすべての情報を利用できる分散マルチロボット制御ポリシーを学習できます。
私たちのアプローチには3つの重要な特性があります。
第一に、物理ロボットシステムの省エネルギー特性とロボットチームの相互作用のネットワーク化された性質を尊重するために、政策表現にポートハミルトニアン構造を課します。
第二に、自己関節を使用して、相互作用グラフから各ロボットで時間変動情報を処理できるまばらなポリシー表現を確保します。
第三に、値関数係数の必要性を克服しながら、トレーニング中のロボット間の相関を説明する自己関節のポートハミルトニアン制御ポリシーによってパラメーター化されたソフトアクターcriticな強化学習アルゴリズムを提示します。
さまざまなマルチロボットシナリオでの広範なシミュレーションは、提案されたアプローチの成功を示しており、スケーラビリティの以前のマルチロボット補強学習ソリューションを上回り、同様または優れたパフォーマンスを達成します(トレーニング時のロボット数を超えるロボットチームの最先端の累積報酬を平均化します)。
また、不完全な通信の下でジョージア工科大学ロボタリウムの複数の実際のロボットでのアプローチを検証し、ロボットの数にわたってゼロショットSIMからリアルへの転送とスケーラビリティを示しています。

要約(オリジナル)

The networked nature of multi-robot systems presents challenges in the context of multi-agent reinforcement learning. Centralized control policies do not scale with increasing numbers of robots, whereas independent control policies do not exploit the information provided by other robots, exhibiting poor performance in cooperative-competitive tasks. In this work we propose a physics-informed reinforcement learning approach able to learn distributed multi-robot control policies that are both scalable and make use of all the available information to each robot. Our approach has three key characteristics. First, it imposes a port-Hamiltonian structure on the policy representation, respecting energy conservation properties of physical robot systems and the networked nature of robot team interactions. Second, it uses self-attention to ensure a sparse policy representation able to handle time-varying information at each robot from the interaction graph. Third, we present a soft actor-critic reinforcement learning algorithm parameterized by our self-attention port-Hamiltonian control policy, which accounts for the correlation among robots during training while overcoming the need of value function factorization. Extensive simulations in different multi-robot scenarios demonstrate the success of the proposed approach, surpassing previous multi-robot reinforcement learning solutions in scalability, while achieving similar or superior performance (with averaged cumulative reward up to x2 greater than the state-of-the-art with robot teams x6 larger than the number of robots at training time). We also validate our approach on multiple real robots in the Georgia Tech Robotarium under imperfect communication, demonstrating zero-shot sim-to-real transfer and scalability across number of robots.

arxiv情報

著者 Eduardo Sebastian,Thai Duong,Nikolay Atanasov,Eduardo Montijano,Carlos Sagues
発行日 2025-03-24 14:36:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.MA, cs.RO, cs.SY, eess.SY パーマリンク