要約
Multi-Agent Path Finding(MAPF)問題は、既知の潜在的に障害物に満ちた環境で、複数のエージェントの最短かつ衝突のないパスを決定することを目的としています。
これは、大規模なロジスティクスと輸送におけるロボット展開の中心的な課題です。
分散化された学習ベースのアプローチは、MAPFの問題に対処するための大きな可能性を示しており、より反応的でスケーラブルなソリューションを提供します。
ただし、既存の学習ベースのMAPFメソッドは、通常、限られた視野(FOV)に基づいて意思決定を行うエージェントに依存しており、複雑なシナリオで近視のポリシーと非効率的な協力をもたらします。
そこで、重要な課題は、限られた観測と通信に基づいて、エージェント間の潜在的な動きに関するコンセンサスを達成することです。
この課題に取り組むために、Sheaf理論を分散型の深い強化学習に適用する新しいフレームワークを紹介し、エージェントが地元のコンセンサスを通じて互いの間の幾何学的相互依存性を学び、緊密に協力的な意思決定のためにそれらを利用できるようにします。
特に、束の理論は、局所的な観察を通じてグローバルなコンセンサスを達成するための数学的な条件の証明を提供します。
これに触発されて、ニューラルネットワークを組み込み、束の理論に基づいて潜在空間のコンセンサスをほぼモデル化し、自己教師の学習を通じて訓練します。
タスク中、以前の作品のようにMAPFの通常の機能に加えて、各エージェントは学習したコンセンサス機能について分配されています。
その結果、提案された方法は、特に比較的大きく複雑なシナリオで、最先端の学習ベースのMAPFプランナーよりも大幅な改善を実証し、さまざまなシミュレーションや実世界のロボット実験のベースラインに対する優位性を示しています。
要約(オリジナル)
The Multi-Agent Path Finding (MAPF) problem aims to determine the shortest and collision-free paths for multiple agents in a known, potentially obstacle-ridden environment. It is the core challenge for robotic deployments in large-scale logistics and transportation. Decentralized learning-based approaches have shown great potential for addressing the MAPF problems, offering more reactive and scalable solutions. However, existing learning-based MAPF methods usually rely on agents making decisions based on a limited field of view (FOV), resulting in short-sighted policies and inefficient cooperation in complex scenarios. There, a critical challenge is to achieve consensus on potential movements between agents based on limited observations and communications. To tackle this challenge, we introduce a new framework that applies sheaf theory to decentralized deep reinforcement learning, enabling agents to learn geometric cross-dependencies between each other through local consensus and utilize them for tightly cooperative decision-making. In particular, sheaf theory provides a mathematical proof of conditions for achieving global consensus through local observation. Inspired by this, we incorporate a neural network to approximately model the consensus in latent space based on sheaf theory and train it through self-supervised learning. During the task, in addition to normal features for MAPF as in previous works, each agent distributedly reasons about a learned consensus feature, leading to efficient cooperation on pathfinding and collision avoidance. As a result, our proposed method demonstrates significant improvements over state-of-the-art learning-based MAPF planners, especially in relatively large and complex scenarios, demonstrating its superiority over baselines in various simulations and real-world robot experiments.
arxiv情報
著者 | Shuhao Liao,Weihang Xia,Yuhong Cao,Weiheng Dai,Chengyang He,Wenjun Wu,Guillaume Sartoretti |
発行日 | 2025-02-10 13:17:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google