Learning Coordinated Maneuver in Adversarial Environments

要約

この論文は、ランダムな位置の敵が存在する中でルートを横断するロボットのチームの調整を解決することを目的としています。
私たちの目標は、チームの全体的なコストを最小限に抑えることです。このコストは、(i) ロボットが敵の影響を受けるゾーンに留まる際の蓄積リスク、および (ii) ミッションの完了時間によって決まります。
横断中、ロボットは速度を落として「ガード」として機能することができ(遅いほど良い)、これにより特定の敵が被るリスクが軽減されます。
これは、ロボットの警戒行動と移動速度との間のトレードオフにつながります。
定式化された問題は高度に非凸であり、既存のアルゴリズムでは効率的に解決できません。
私たちのアプローチには、敵が 1 人の場合のロボットの動作の理論的分析が含まれています。
問題の規模が拡大するにつれて、最適化アプローチを使用して最適な解決策を解くことは困難になるため、新しいエンコーディングおよびポリシー生成手法を開発することにより、強化学習手法を採用します。
シミュレーションは、私たちの学習方法がチームの調整行動を効率的に生み出すことができることを示しています。
これらの行動の背後にある理由を説明し、それがチーム全体のコストを削減する理由を説明します。

要約(オリジナル)

This paper aims to solve the coordination of a team of robots traversing a route in the presence of adversaries with random positions. Our goal is to minimize the overall cost of the team, which is determined by (i) the accumulated risk when robots stay in adversary-impacted zones and (ii) the mission completion time. During traversal, robots can reduce their speed and act as a `guard’ (the slower, the better), which will decrease the risks certain adversary incurs. This leads to a trade-off between the robots’ guarding behaviors and their travel speeds. The formulated problem is highly non-convex and cannot be efficiently solved by existing algorithms. Our approach includes a theoretical analysis of the robots’ behaviors for the single-adversary case. As the scale of the problem expands, solving the optimal solution using optimization approaches is challenging, therefore, we employ reinforcement learning techniques by developing new encoding and policy-generating methods. Simulations demonstrate that our learning methods can efficiently produce team coordination behaviors. We discuss the reasoning behind these behaviors and explain why they reduce the overall team cost.

arxiv情報

著者 Zechen Hu,Manshi Limbu,Daigo Shishika,Xuesu Xiao,Xuan Wang
発行日 2024-07-12 17:49:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク