DACOOP-A: Decentralized Adaptive Cooperative Pursuit via Attention

要約

ルールベースのポリシーを強化学習に統合すると、協調追跡問題におけるデータ効率と一般化が向上することが期待されます。
ただし、ほとんどの実装では、観察の埋め込みやロボット間の相互作用ルールにおける隣接するロボットの影響を適切に区別できず、情報損失や非効率的な協力が発生します。
この論文では、人工ポテンシャル場と注意メカニズムによる強化学習を強化することにより、Decentralized Adaptive COOperative Pursuit via tention (DACOOP-A) という名前の協調追跡アルゴリズムを提案します。
注意ベースのフレームワークは、学習された注意スコアを観察埋め込みルールとロボット間相互作用ルールに同時に統合することにより、重要な近隣を強調するために開発されています。
KL 発散正則化は、結果として生じる学習の安定性の問題を軽減するために導入されています。
データの効率と一般化の改善は、数値シミュレーションを通じて実証されます。
提案されたモジュールの利点を説明するために、広範な定量分析とアブレーション研究が実行されます。
物理システムへの DACOOP-A の導入の実現可能性を正当化するために、現実の実験が実行されます。

要約(オリジナル)

Integrating rule-based policies into reinforcement learning promises to improve data efficiency and generalization in cooperative pursuit problems. However, most implementations do not properly distinguish the influence of neighboring robots in observation embedding or inter-robot interaction rules, leading to information loss and inefficient cooperation. This paper proposes a cooperative pursuit algorithm named Decentralized Adaptive COOperative Pursuit via Attention (DACOOP-A) by empowering reinforcement learning with artificial potential field and attention mechanisms. An attention-based framework is developed to emphasize important neighbors by concurrently integrating the learned attention scores into observation embedding and inter-robot interaction rules. A KL divergence regularization is introduced to alleviate the resultant learning stability issue. Improvements in data efficiency and generalization are demonstrated through numerical simulations. Extensive quantitative analysis and ablation studies are performed to illustrate the advantages of the proposed modules. Real-world experiments are performed to justify the feasibility of deploying DACOOP-A in physical systems.

arxiv情報

著者 Zheng Zhang,Dengyu Zhang,Qingrui Zhang,Wei Pan,Tianjiang Hu
発行日 2023-10-28 13:47:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク