Less Is More: Robust Robot Learning via Partially Observable Multi-Agent Reinforcement Learning

要約

多くのマルチエージェントおよび高次元のロボットタスクでは、コントローラーは、単一エージェント補強学習(SARL)またはマルチエージェント補強学習(MARL)のいずれかを使用して、中央または沈降することができます。
ただし、これら2つのパラダイム間の関係は十分に研究されていません。
この作業は、同じタスクでのSARLとMARLの堅牢性とパフォーマンスを体系的に調査することを目的としています。
最初に、政策勾配ベースのSARLとMARLによって最適化された独立したガウス政策が、フルステートの観察下で同等であることを分析的に示します。
それに続いて、特定の本質的に単一エージェントタスクでは、おそらく驚くべきことに、複数のエージェントを使用してロボットを制御できることを示しています。
これらの場合、エージェントは完全な状態情報に依存しないため、マルチエージェントポリシーは摂動と障害に追加の堅牢性を提供できます。
実験的な分散型制御タスクと実際のロボットを使用したモバイル操作タスクに関する実験は、部分観測にアクセスできる複数のエージェントがシステムの一部が失敗したときに単一のエージェントよりも優れていることを示しています。

要約(オリジナル)

In many multi-agent and high-dimensional robotic tasks, controllers can be optimized centrally or decentrally, using either single-agent reinforcement learning (SARL) or multi-agent reinforcement learning (MARL). However, the relationship between these two paradigms is not well-studied. This work aims to systematically investigate the robustness and performance of SARL and MARL in the same task. We first analytically show that independent Gaussian policies optimized by policy-gradient based SARL and MARL are equivalent under full-state observations. Following, we empirically show that in certain inherently single-agent tasks, perhaps surprisingly, we can use multiple agents to control a robot such that each agent only has access to partial observations. Since in these cases an agent does not depend on full state information multi-agent policies can provide additional robustness to perturbations and failures. Experiments on an illustrative decentralized control task and a mobile manipulation task with a real robot show that multiple agents with access to partial observations outperform a single agent when parts of the system fail.

arxiv情報

著者 Wenshuai Zhao,Eetu-Aleksi Rantala,Sahar Salimpour,Joni Pajarinen,Jorge Peña Queralta
発行日 2025-02-28 14:28:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク