Hierarchical Reinforcement Learning for Swarm Confrontation with High Uncertainty

要約

群れロボット工学では、追跡回避ゲームを含む対立が重要なシナリオです。
未知の対戦相手の戦略や動的な障害物によって引き起こされる高い不確実性により、アクション空間はハイブリッドな意思決定プロセスへと複雑化します。
深層強化学習手法は、さまざまなサイズに対応できるため、群の対立には重要ですが、エンドツーエンドの実装としては、ハイブリッドプロセスには対応できません。
ここでは、ターゲット割り当て層、経路計画層、および定量化された不確実性を示す 2 つの層間の基礎となる動的相互作用メカニズムで構成される新しい階層型強化学習アプローチを提案します。
これは、不確実性を定量化し、インタラクション頻度を適応的に調整する確率的アンサンブル モデルを使用して、ハイブリッド プロセスを離散的な割り当てレイヤーと連続的なプランニング レイヤーに分離します。
さらに、2つの層によってもたらされる不安定なトレーニングプロセスを克服するために、事前トレーニングとクロストレーニングを含む統合トレーニング方法を設計し、トレーニングの効率と安定性を高めます。
比較研究とアブレーション研究の両方の実験結果は、私たちが提案したアプローチの有効性と一般化パフォーマンスを検証します。

要約(オリジナル)

In swarm robotics, confrontation including the pursuit-evasion game is a key scenario. High uncertainty caused by unknown opponents’ strategies and dynamic obstacles complicates the action space into a hybrid decision process. Although the deep reinforcement learning method is significant for swarm confrontation since it can handle various sizes, as an end-to-end implementation, it cannot deal with the hybrid process. Here, we propose a novel hierarchical reinforcement learning approach consisting of a target allocation layer, a path planning layer, and the underlying dynamic interaction mechanism between the two layers, which indicates the quantified uncertainty. It decouples the hybrid process into discrete allocation and continuous planning layers, with a probabilistic ensemble model to quantify the uncertainty and regulate the interaction frequency adaptively. Furthermore, to overcome the unstable training process introduced by the two layers, we design an integration training method including pre-training and cross-training, which enhances the training efficiency and stability. Experiment results in both comparison and ablation studies validate the effectiveness and generalization performance of our proposed approach.

arxiv情報

著者 Qizhen Wu,Kexin Liu,Lei Chen,Jinhu Lv
発行日 2024-06-12 05:12:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO パーマリンク