Social Behavior as a Key to Learning-based Multi-Agent Pathfinding Dilemmas

要約

マルチエージェント パス検索 (MAPF) 問題には、倉庫自動化、物流、またはラストマイル配送における重要なアプリケーションを使用する、既知の静的環境でエージェント チームの衝突のないパスを見つけることが含まれます。
こうした大規模アプリケーションのニーズを満たすために、現在の学習ベースの手法では、スケーラビリティを向上させるために、完全にトレーニングされた同じ分散型ネットワークをすべてのエージェントに展開することがよくあります。
ただし、このようなパラメータ共有は通常、エージェント間の動作が均一になるため、エージェントが対称的な競合 (ボトルネックなど) の周りの関係を壊すことができなくなり、ライブ/デッドロックが発生する可能性があります。
この論文では、パラメータによって提供されるスケーラビリティに影響を与えることなく、エージェントがさまざまな社会的行動(個人の動的な役割に似た)を学習して動的に選択できるようにすることで、同質性の悪影響を軽減することを目的とした新しい学習ベースのMAPFフレームワークであるSYLPHを提案します。
共有すること。
具体的には、SYLPH エージェントは、目の前の状況に応じて自分の社会的価値指向 (SVO) を選択することを学習し、自分の利己性/利他主義のレベルを定量化し、また、SVO 条件付きの MAPF ポリシーによって移動行動を決定します。
これらの目的のために、各エージェントはまず、他のエージェントとの将来の衝突/相互作用を予測することによって、システム内で最も影響力のある他のエージェントを決定します。
各エージェントは、そのエージェントに対して独自の SVO を選択し、別のエージェントがより影響力を持つようになるまで、この SVO を制定するように分散型 MAPF ポリシーをトレーニングします。
さらに、エージェントが互いの社会的好みを考慮できるようにするために、各エージェントは近隣のエージェントの SVO 値にアクセスできるようになります。
この階層的な意思決定と社会的嗜好の交換の結果、SYLPH はエージェントに、より潜在的な空間と微妙なコンテキストを通じて MAPF タスクについて推論する能力を与え、対称的な対立をめぐる関係を断ち切るのに役立つさまざまな応答を導きます。
[…]

要約(オリジナル)

The Multi-agent Path Finding (MAPF) problem involves finding collision-free paths for a team of agents in a known, static environment, with important applications in warehouse automation, logistics, or last-mile delivery. To meet the needs of these large-scale applications, current learning-based methods often deploy the same fully trained, decentralized network to all agents to improve scalability. However, such parameter sharing typically results in homogeneous behaviors among agents, which may prevent agents from breaking ties around symmetric conflict (e.g., bottlenecks) and might lead to live-/deadlocks. In this paper, we propose SYLPH, a novel learning-based MAPF framework aimed to mitigate the adverse effects of homogeneity by allowing agents to learn and dynamically select different social behaviors (akin to individual, dynamic roles), without affecting the scalability offered by parameter sharing. Specifically, SYLPH agents learn to select their Social Value Orientation (SVO) given the situation at hand, quantifying their own level of selfishness/altruism, as well as an SVO-conditioned MAPF policy dictating their movement actions. To these ends, each agent first determines the most influential other agent in the system by predicting future conflicts/interactions with other agents. Each agent selects its own SVO towards that agent, and trains its decentralized MAPF policy to enact this SVO until another agent becomes more influential. To further allow agents to consider each others’ social preferences, each agent gets access to the SVO value of their neighbors. As a result of this hierarchical decision-making and exchange of social preferences, SYLPH endows agents with the ability to reason about the MAPF task through more latent spaces and nuanced contexts, leading to varied responses that can help break ties around symmetric conflicts. […]

arxiv情報

著者 Chengyang He,Tanishq Duhan,Parth Tulsyan,Patrick Kim,Guillaume Sartoretti
発行日 2024-08-06 09:34:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク