Bi-CL: A Reinforcement Learning Framework for Robots Coordination Through Bi-level Optimization

要約

マルチロボット システムでは、調整動作の性質と個々のロボットに関するグローバルな情報の欠如の組み合わせにより、調整されたミッションを達成することが依然として大きな課題となっています。
これらの課題を軽減するために、このホワイト ペーパーでは、集中トレーニングと分散実行パラダイム内で 2 レベルの最適化構造を活用する新しいアプローチである 2 レベル調整学習 (Bi-CL) を紹介します。
私たちの 2 レベルの再定式化は、元の問題を、アクション スペースが削減された強化学習レベルと、グローバル オプティマイザーからデモンストレーションを得た模倣学習レベルに分解します。
どちらのレベルも学習効率と拡張性の向上に貢献します。
ロボットの不完全な情報により、2 つのレベルの学習モデル間に不一致が生じることに注意してください。
これに対処するために、Bi-CL はアライメント ペナルティ メカニズムをさらに統合し、トレーニング効率を低下させることなく 2 つのレベル間の不一致を最小限に抑えることを目指しています。
問題の定式化を概念化するための実行例を紹介し、この例の 2 つのバリエーション (ルート ベースのシナリオとグラフ ベースのシナリオ) に Bi-CL を適用します。
シミュレーション結果は、Bi-CL がより効率的に学習し、マルチロボット協調のための従来のマルチエージェント強化学習ベースラインと同等のパフォーマンスを達成できることを示しています。

要約(オリジナル)

In multi-robot systems, achieving coordinated missions remains a significant challenge due to the coupled nature of coordination behaviors and the lack of global information for individual robots. To mitigate these challenges, this paper introduces a novel approach, Bi-level Coordination Learning (Bi-CL), that leverages a bi-level optimization structure within a centralized training and decentralized execution paradigm. Our bi-level reformulation decomposes the original problem into a reinforcement learning level with reduced action space, and an imitation learning level that gains demonstrations from a global optimizer. Both levels contribute to improved learning efficiency and scalability. We note that robots’ incomplete information leads to mismatches between the two levels of learning models. To address this, Bi-CL further integrates an alignment penalty mechanism, aiming to minimize the discrepancy between the two levels without degrading their training efficiency. We introduce a running example to conceptualize the problem formulation and apply Bi-CL to two variations of this example: route-based and graph-based scenarios. Simulation results demonstrate that Bi-CL can learn more efficiently and achieve comparable performance with traditional multi-agent reinforcement learning baselines for multi-robot coordination.

arxiv情報

著者 Zechen Hu,Daigo Shishika,Xuesu Xiao,Xuan Wang
発行日 2024-04-23 01:13:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク