Constrained Reinforcement Learning using Distributional Representation for Trustworthy Quadrotor UAV Tracking Control

要約

複雑な動的環境におけるクアッドローターの正確かつ信頼性の高いトラッキング制御を同時に実現することは困難です。
抗力とモーメントの変化から得られる空気力学は混沌としており、正確に特定することが難しいため、現在のクアローター追跡システムのほとんどは、従来の制御アプローチではそれらを単純な「外乱」として扱います。
未知の空力効果に対する分布強化学習外乱推定器と確率モデル予測コントローラー (SMPC) を統合した、新規で解釈可能な軌道追跡装置を提案します。
提案された推定器「制約付き分布強化外乱推定器」(ConsDRED) は、空力効果の真の値と推定値の間の不確実性を正確に特定します。
簡略化されたアフィン外乱フィードバックは、凸性を保証するための制御パラメーター化に使用され、その後 SMPC と統合されます。
理論的には、ニューラル ネットワークの幅と層が増加するにつれてエラーが減少して制約に違反した場合、ConsDRED が少なくとも最適なグローバル コンバージェンス レートと特定のサブリニア レートを達成することを保証します。
実用性を実証するために、シミュレーションと実世界の実験での収束トレーニングを示し、ConsDRED が標準的な制約付き RL アプローチと比較してハイパーパラメーター設定の影響を受けにくいことを経験的に検証します。
我々は、我々のシステムが最近の技術と比較して累積追跡誤差を少なくとも 70% 改善することを実証します。
重要なのは、提案されたフレームワークである ConsDRED-SMPC は、高いパフォーマンスの追求と、実際の実装のための保守的な制約に従うこととの間のトレードオフのバランスを取っていることです。

要約(オリジナル)

Simultaneously accurate and reliable tracking control for quadrotors in complex dynamic environments is challenging. As aerodynamics derived from drag forces and moment variations are chaotic and difficult to precisely identify, most current quadrotor tracking systems treat them as simple `disturbances’ in conventional control approaches. We propose a novel, interpretable trajectory tracker integrating a Distributional Reinforcement Learning disturbance estimator for unknown aerodynamic effects with a Stochastic Model Predictive Controller (SMPC). The proposed estimator `Constrained Distributional Reinforced disturbance estimator’ (ConsDRED) accurately identifies uncertainties between true and estimated values of aerodynamic effects. Simplified Affine Disturbance Feedback is used for control parameterization to guarantee convexity, which we then integrate with a SMPC. We theoretically guarantee that ConsDRED achieves at least an optimal global convergence rate and a certain sublinear rate if constraints are violated with an error decreases as the width and the layer of neural network increase. To demonstrate practicality, we show convergent training in simulation and real-world experiments, and empirically verify that ConsDRED is less sensitive to hyperparameter settings compared with canonical constrained RL approaches. We demonstrate our system improves accumulative tracking errors by at least 70% compared with the recent art. Importantly, the proposed framework, ConsDRED-SMPC, balances the tradeoff between pursuing high performance and obeying conservative constraints for practical implementations

arxiv情報

著者 Yanran Wang,David Boyle
発行日 2023-09-08 11:17:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY パーマリンク