Toward Scalable Multirobot Control: Fast Policy Learning in Distributed MPC

要約

分散モデル予測制御 (DMPC) は、マルチロボット システム (MRS) で最適な協調制御を実現するのに有望です。
ただし、リアルタイム DMPC 実装は、ローカル制御シーケンスをオンラインで定期的に計算する数値最適化ツールに依存しています。
このプロセスは計算量が多く、大規模な非線形 MRS には拡張性がありません。
この記事では、スケーラブルなマルチロボット制御のための新しい分散学習ベースの予測制御 (DLPC) フレームワークを提案します。
開ループ制御シーケンスを計算する従来の DMPC 手法とは異なり、私たちのアプローチは、数値ソルバーを使用せずに MRS 用の明示的な閉ループ DMPC ポリシーを生成する、計算的に高速で効率的な分散ポリシー学習アルゴリズムを中心としています。
ポリシー学習は、オンラインの分散型アクタークリティカル実装を通じて、各予測間隔で時間とともに段階的に実行されます。
制御ポリシーは後退水平方式で連続的に更新されるため、閉ループの安定性が保証され、高速かつ効率的なポリシー学習が可能になります。
学習された制御ポリシーは、さまざまなロボット スケールを備えた MRS にオンラインで展開でき、大規模な MRS の拡張性と転送性が向上します。
さらに、力場にインスピレーションを得たポリシー学習アプローチを通じて、マルチロボットの安全な学習の課題に対処する方法論を拡張します。
私たちは、大型車輪付きロボットとマルチコプタードローンの協調タスクに関する広範な実験を通じて、アプローチの有効性、拡張性、効率性を検証します。
私たちの結果は、最大 10,000 ユニットまでの MRS 向けの DMPC ポリシーの迅速な学習と展開を実証しています。

要約(オリジナル)

Distributed model predictive control (DMPC) is promising in achieving optimal cooperative control in multirobot systems (MRS). However, real-time DMPC implementation relies on numerical optimization tools to periodically calculate local control sequences online. This process is computationally demanding and lacks scalability for large-scale, nonlinear MRS. This article proposes a novel distributed learning-based predictive control (DLPC) framework for scalable multirobot control. Unlike conventional DMPC methods that calculate open-loop control sequences, our approach centers around a computationally fast and efficient distributed policy learning algorithm that generates explicit closed-loop DMPC policies for MRS without using numerical solvers. The policy learning is executed incrementally and forward in time in each prediction interval through an online distributed actor-critic implementation. The control policies are successively updated in a receding-horizon manner, enabling fast and efficient policy learning with the closed-loop stability guarantee. The learned control policies could be deployed online to MRS with varying robot scales, enhancing scalability and transferability for large-scale MRS. Furthermore, we extend our methodology to address the multirobot safe learning challenge through a force field-inspired policy learning approach. We validate our approach’s effectiveness, scalability, and efficiency through extensive experiments on cooperative tasks of large-scale wheeled robots and multirotor drones. Our results demonstrate the rapid learning and deployment of DMPC policies for MRS with scales up to 10,000 units.

arxiv情報

著者 Xinglong Zhang,Wei Pan,Cong Li,Xin Xu,Xiangke Wang,Ronghua Zhang,Dewen Hu
発行日 2024-12-27 14:31:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク