Time-attenuating Twin Delayed DDPG Reinforcement Learning for Trajectory Tracking Control of Quadrotors

要約

環境からのノイズを考慮すると、クワッドローターの連続軌道追跡制御は複雑です。
環境ダイナミクスのモデリングが難しいため、モデル予測制御などの従来の制御理論に基づく追跡方法では、追跡の精度と応答時​​間に制限があります。
軌跡追跡タスクをより適切に処理するために、ノイズに対して堅牢なモデルフリーアルゴリズムである時間減衰ツイン遅延DDPGを提案します。
深層強化学習フレームワークが構築され、時間減衰戦略が局所最適値へのトラップを回避するように設計されています。
実験結果は、追跡誤差が非常に小さく、演算時間が従来のアルゴリズムの 10 分の 1 であることを示しています。
OpenAI Mujoco ツールを使用して提案されたアルゴリズムを検証し、シミュレーション結果は、提案された方法がトレーニング効率を大幅に改善し、精度と収束安定性を効果的に改善できることを示しています。

要約(オリジナル)

Continuous trajectory tracking control of quadrotors is complicated when considering noise from the environment. Due to the difficulty in modeling the environmental dynamics, tracking methodologies based on conventional control theory, such as model predictive control, have limitations on tracking accuracy and response time. We propose a Time-attenuating Twin Delayed DDPG, a model-free algorithm that is robust to noise, to better handle the trajectory tracking task. A deep reinforcement learning framework is constructed, where a time decay strategy is designed to avoid trapping into local optima. The experimental results show that the tracking error is significantly small, and the operation time is one-tenth of that of a traditional algorithm. The OpenAI Mujoco tool is used to verify the proposed algorithm, and the simulation results show that, the proposed method can significantly improve the training efficiency and effectively improve the accuracy and convergence stability.

arxiv情報

著者 Boyuan Deng,Jian Sun,Zhuo Li,Gang Wang
発行日 2023-02-13 03:04:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO, cs.SY, eess.SY パーマリンク