Diffusion-Reinforcement Learning Hierarchical Motion Planning in Multi-agent Adversarial Games

要約

強化学習(RL)ベースのモーション計画により、自律的なナビゲーションからロボット操作まで、従来のアプローチを上回る可能性があることが最近示されました。
この作業では、部分的に観察可能なマルチエージェント敵対的な追跡式ゲーム(PEG)における回避ターゲットのモーション計画タスクに焦点を当てています。
追求標識の問題は、検索救助操作や監視ロボットなど、さまざまなアプリケーションに関連しています。ロボットは、検出またはキャプチャを避けながら、インテリジェンスを収集したり、ミッションタスクを達成したりするためのアクションを効果的に計画する必要があります。
高レベルの拡散モデルを統合して環境データに対応するグローバルパスを計画する階層アーキテクチャを提案しますが、低レベルのRLポリシーは回避とグローバルのパスフォローの動作に関する理由です。
さまざまなドメインとさまざまな観測可能性にわたるベンチマークの結果は、私たちのアプローチが検出および目標到達率で77.18%と47.38%を上回ることを示しており、平均でパフォーマンススコアが51.4%増加します。
さらに、この方法は、学習ポリシーの解釈可能性、柔軟性、効率を向上させます。

要約(オリジナル)

Reinforcement Learning (RL)-based motion planning has recently shown the potential to outperform traditional approaches from autonomous navigation to robot manipulation. In this work, we focus on a motion planning task for an evasive target in a partially observable multi-agent adversarial pursuit-evasion game (PEG). Pursuit-evasion problems are relevant to various applications, such as search and rescue operations and surveillance robots, where robots must effectively plan their actions to gather intelligence or accomplish mission tasks while avoiding detection or capture. We propose a hierarchical architecture that integrates a high-level diffusion model to plan global paths responsive to environment data, while a low-level RL policy reasons about evasive versus global path-following behavior. The benchmark results across different domains and different observability show that our approach outperforms baselines by 77.18% and 47.38% on detection and goal reaching rate, which leads to 51.4% increasing of the performance score on average. Additionally, our method improves interpretability, flexibility and efficiency of the learned policy.

arxiv情報

著者 Zixuan Wu,Sean Ye,Manisha Natarajan,Matthew C. Gombolay
発行日 2025-05-08 21:52:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.MA, cs.RO パーマリンク