Trustworthy Reinforcement Learning for Quadrotor UAV Tracking Control Systems

要約

複雑な動的環境におけるクワッドローターの正確で信頼性の高いトラッキング制御を同時に行うことは困難です。
抗力とモーメントの変動に由来する空気力学は無秩序であり、正確に特定するのが難しいため、現在のほとんどのクアッドローター追跡システムは、従来の制御アプローチでは単純な「外乱」としてそれらを扱います。
未知の空力効果に対する分布強化学習擾乱推定器と確率モデル予測コントローラー (SMPC) を統合した、新しい解釈可能な軌跡トラッカーを提案します。
提案された推定器「制約付き分布強化擾乱推定器」(ConsDRED) は、空力効果の真の値と推定値の間の不確実性を正確に識別します。
Simplified Affine Disturbance Feedback を制御パラメーター化に使用して、凸性を保証し、SMPC と統合します。
理論的には、ConsDRED が少なくとも最適なグローバル収束率と特定の準線形率を達成することを保証します。これは、ニューラル ネットワークの幅と層が増加するにつれてエラーが減少し、制約に違反した場合に発生します。
実用性を実証するために、シミュレーションと実世界の実験で収束トレーニングを示し、標準的な制約付き RL アプローチと比較して、ConsDRED がハイパーパラメーター設定の影響を受けにくいことを経験的に検証します。
私たちのシステムは、最近の技術と比較して、累積追跡エラーを少なくとも 62% 改善することを示しています。
重要なことは、提案されたフレームワーク、ConsDRED-SMPC は、高性能を追求することと、実用的な実装のための保守的な制約に従うことの間のトレードオフのバランスをとることです。

要約(オリジナル)

Simultaneously accurate and reliable tracking control for quadrotors in complex dynamic environments is challenging. As aerodynamics derived from drag forces and moment variations are chaotic and difficult to precisely identify, most current quadrotor tracking systems treat them as simple `disturbances’ in conventional control approaches. We propose a novel, interpretable trajectory tracker integrating a Distributional Reinforcement Learning disturbance estimator for unknown aerodynamic effects with a Stochastic Model Predictive Controller (SMPC). The proposed estimator `Constrained Distributional Reinforced disturbance estimator’ (ConsDRED) accurately identifies uncertainties between true and estimated values of aerodynamic effects. Simplified Affine Disturbance Feedback is used for control parameterization to guarantee convexity, which we then integrate with a SMPC. We theoretically guarantee that ConsDRED achieves at least an optimal global convergence rate and a certain sublinear rate if constraints are violated with an error decreases as the width and the layer of neural network increase. To demonstrate practicality, we show convergent training in simulation and real-world experiments, and empirically verify that ConsDRED is less sensitive to hyperparameter settings compared with canonical constrained RL approaches. We demonstrate our system improves accumulative tracking errors by at least 62% compared with the recent art. Importantly, the proposed framework, ConsDRED-SMPC, balances the tradeoff between pursuing high performance and obeying conservative constraints for practical implementations

arxiv情報

著者 Yanran Wang,David Boyle
発行日 2023-02-22 23:15:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO, cs.SY, eess.SY パーマリンク