要約
群れロボット工学では、追跡回避ゲームを含む対立が重要なシナリオです。
未知の対戦相手の戦略、動的な障害、不十分なトレーニングによって引き起こされる高い不確実性により、アクション空間はハイブリッドな意思決定プロセスへと複雑化します。
深層強化学習手法は、さまざまなサイズに対応できるため、群の対立には重要ですが、エンドツーエンドの実装としては、ハイブリッドプロセスには対応できません。
ここでは、ターゲット割り当て層、経路計画層、および定量化された不確実性を示す 2 つの層間の基礎となる動的相互作用メカニズムで構成される新しい階層型強化学習アプローチを提案します。
これは、不確実性を定量化し、インタラクション頻度を適応的に調整する確率的アンサンブル モデルを使用して、ハイブリッド プロセスを離散的な割り当てレイヤーと連続的なプランニング レイヤーに分離します。
さらに、2つの層によってもたらされる不安定なトレーニングプロセスを克服するために、事前トレーニングとクロストレーニングを含む統合トレーニング方法を設計し、トレーニングの効率と安定性を高めます。
比較研究、アブレーション研究、および実際のロボット研究の両方における実験結果は、私たちが提案したアプローチの有効性と一般化パフォーマンスを検証します。
20 ~ 40 人のエージェントを使用した定義済みの実験では、提案された方法の勝率は約 90% に達し、他の従来の方法を上回りました。
要約(オリジナル)
In swarm robotics, confrontation including the pursuit-evasion game is a key scenario. High uncertainty caused by unknown opponents’ strategies, dynamic obstacles, and insufficient training complicates the action space into a hybrid decision process. Although the deep reinforcement learning method is significant for swarm confrontation since it can handle various sizes, as an end-to-end implementation, it cannot deal with the hybrid process. Here, we propose a novel hierarchical reinforcement learning approach consisting of a target allocation layer, a path planning layer, and the underlying dynamic interaction mechanism between the two layers, which indicates the quantified uncertainty. It decouples the hybrid process into discrete allocation and continuous planning layers, with a probabilistic ensemble model to quantify the uncertainty and regulate the interaction frequency adaptively. Furthermore, to overcome the unstable training process introduced by the two layers, we design an integration training method including pre-training and cross-training, which enhances the training efficiency and stability. Experiment results in both comparison, ablation, and real-robot studies validate the effectiveness and generalization performance of our proposed approach. In our defined experiments with twenty to forty agents, the win rate of the proposed method reaches around ninety percent, outperforming other traditional methods.
arxiv情報
著者 | Qizhen Wu,Kexin Liu,Lei Chen,Jinhu Lü |
発行日 | 2024-10-25 08:35:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google