MAPF-GPT: Imitation Learning for Multi-Agent Pathfinding at Scale

要約

マルチエージェント パスファインディング (MAPF) は、通常、共有環境で複数のエージェントの衝突のないパスを見つける必要がある難しい計算問題です。
MAPF を最適に解決することは NP では困難ですが、効率的なソリューションは自動倉庫や輸送システムを含む多くのアプリケーションにとって重要です。
最近、MAPF への学習ベースのアプローチ、特に深層強化学習を活用したアプローチが注目を集めています。
機械学習の現在の傾向に従って、MAPF-GPT と呼ばれる MAPF 問題の基礎モデルを作成しました。
模倣学習を使用して、追加のヒューリスティック、報酬関数、または他のエージェントとのコミュニケーションなしで、部分的な可観測性の条件でアクションを生成できる、事前に収集された次善のエキスパートの軌跡のセットに関するポリシーをトレーニングしました。
結果として得られる MAPF-GPT モデルは、トレーニング データセットには存在しなかった MAPF 問題インスタンスを解決する際のゼロショット学習能力を示します。
我々は、MAPF-GPT が、さまざまな問題インスタンスにおいて現在最もパフォーマンスの高い学習可能な MAPF ソルバーよりも顕著に優れており、(推論モードで) 計算の点で効率的であることを示します。

要約(オリジナル)

Multi-agent pathfinding (MAPF) is a challenging computational problem that typically requires to find collision-free paths for multiple agents in a shared environment. Solving MAPF optimally is NP-hard, yet efficient solutions are critical for numerous applications, including automated warehouses and transportation systems. Recently, learning-based approaches to MAPF have gained attention, particularly those leveraging deep reinforcement learning. Following current trends in machine learning, we have created a foundation model for the MAPF problems called MAPF-GPT. Using imitation learning, we have trained a policy on a set of pre-collected sub-optimal expert trajectories that can generate actions in conditions of partial observability without additional heuristics, reward functions, or communication with other agents. The resulting MAPF-GPT model demonstrates zero-shot learning abilities when solving the MAPF problem instances that were not present in the training dataset. We show that MAPF-GPT notably outperforms the current best-performing learnable-MAPF solvers on a diverse range of problem instances and is efficient in terms of computation (in the inference mode).

arxiv情報

著者 Anton Andreychuk,Konstantin Yakovlev,Aleksandr Panov,Alexey Skrynnik
発行日 2024-09-12 13:49:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA パーマリンク