Multi-Agent Reinforcement Learning-Based UAV Pathfinding for Obstacle Avoidance in Stochastic Environment

要約

従来の方法では、確率的環境で複数のエージェントの実行可能なパスを計画します。
ただし、環境の変化に応じてこの方法を繰り返すと、特に集中プランナーのない分散エージェントの場合、計算が複雑になります。
強化学習はさまざまな環境に対する一般化により妥当な解決策を提供しますが、トレーニングにおける膨大なエージェントと環境の相互作用に苦労します。
ここでは、モデル予測制御の考え方に基づいて改良された、マルチエージェント強化学習に基づく分散実行手法を備えた新しい集中型トレーニングを提案します。
私たちのアプローチでは、エージェントは集中型のプランナーとのみ通信し、確率的環境でオンラインで分散型の意思決定を行います。
さらに、各エージェントは、集中プランナとの通信制約を考慮して、距離加重平均場アプローチに基づいて隣接するエージェントの情報を組み合わせた拡張観測を通じて、実現可能なパスを計画します。
モデル予測制御のローリング最適化アプローチにヒントを得て、マルチエージェント強化学習で多段階の値収束を実行してトレーニング効率を高め、収束時の高価な相互作用を削減します。
比較研究、アブレーション研究、および実際のロボット研究の両方における実験結果により、私たちの方法の有効性と一般化パフォーマンスが検証されます。

要約(オリジナル)

Traditional methods plan feasible paths for multiple agents in the stochastic environment. However, the methods’ iterations with the changes in the environment result in computation complexities, especially for the decentralized agents without a centralized planner. Although reinforcement learning provides a plausible solution because of the generalization for different environments, it struggles with enormous agent-environment interactions in training. Here, we propose a novel centralized training with decentralized execution method based on multi-agent reinforcement learning, which is improved based on the idea of model predictive control. In our approach, agents communicate only with the centralized planner to make decentralized decisions online in the stochastic environment. Furthermore, considering the communication constraint with the centralized planner, each agent plans feasible paths through the extended observation, which combines information on neighboring agents based on the distance-weighted mean field approach. Inspired by the rolling optimization approach of model predictive control, we conduct multi-step value convergence in multi-agent reinforcement learning to enhance the training efficiency, which reduces the expensive interactions in convergence. Experiment results in both comparison, ablation, and real-robot studies validate the effectiveness and generalization performance of our method.

arxiv情報

著者 Qizhen Wu,Kexin Liu,Lei Chen,Jinhu Lü
発行日 2024-10-25 08:56:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク