RDE: A Hybrid Policy Framework for Multi-Agent Path Finding Problem

要約

マルチエージェント経路探索(MAPF)は、倉庫オートメーションにおける複数のロボットのナビゲーションのための抽象的なモデルであり、複数のロボットがスタート位置からゴール位置までの衝突のない経路を計画する。強化学習(RL)は、任意のエージェント数に拡張可能な部分観測可能な分散MAPFポリシーを開発するために採用されてきた。しかしながら、RLに基づくMAPF政策は、倉庫オートメーションの高密度で構造化された障害物のために、しばしばエージェントがデッドロックに陥る。本論文では、RLベースのMAPF政策、距離ヒートマップ(DHM)ベースの政策、およびエスケープ政策の切り替えに基づく、新しいハイブリッドMAPF政策、RDEを提案する。RLベースの政策はエージェント間の協調に用いられる。一方、エージェントの視野に他のエージェントがいない場合、エージェントはDHMに問い合わせることで次の行動を得ることができる。有効な行動をランダムに選択するエスケープ・ポリシーは、エージェントがデッドロックから脱出するのを助けることができる。最新のRLベースのMAPF政策(DHCとDCC)を用いて、倉庫のような構造化グリッドマップ上でシミュレーションを行い、RDEがそれらの性能を大幅に改善できることを示す。

要約(オリジナル)

Multi-agent path finding (MAPF) is an abstract model for the navigation of multiple robots in warehouse automation, where multiple robots plan collision-free paths from the start to goal positions. Reinforcement learning (RL) has been employed to develop partially observable distributed MAPF policies that can be scaled to any number of agents. However, RL-based MAPF policies often get agents stuck in deadlock due to warehouse automation’s dense and structured obstacles. This paper proposes a novel hybrid MAPF policy, RDE, based on switching among the RL-based MAPF policy, the Distance heat map (DHM)-based policy and the Escape policy. The RL-based policy is used for coordination among agents. In contrast, when no other agents are in the agent’s field of view, it can get the next action by querying the DHM. The escape policy that randomly selects valid actions can help agents escape the deadlock. We conduct simulations on warehouse-like structured grid maps using state-of-the-art RL-based MAPF policies (DHC and DCC), which show that RDE can significantly improve their performance.

arxiv情報

著者 Jianqi Gao,Yanjie Li,Xiaoqing Yang,Mingshan Tan
発行日 2023-11-03 05:52:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO パーマリンク