Robust Deterministic Policy Gradient for Disturbance Attenuation and Its Application to Quadrotor Control

要約

実用的な制御システムは、システムモデルの不確実性と外部障害のために、最適な制御ポリシーを特定する上で重要な課題をもたらします。
$ h_ \ infty $制御手法は、一般的に乱れの効果を軽減する堅牢なコントローラーを設計するために使用されますが、これらの方法は複雑で計算集約的な計算を必要とすることがよくあります。
この問題に対処するために、このペーパーでは、2プレイヤーのゼロサムダイナミックゲームとして$ h_ \ infty $コントロールの問題を定式化する堅牢な決定論的ポリシー勾配(RDPG)と呼ばれる強化学習アルゴリズムを提案します。
この策定では、1人のプレイヤー(ユーザー)がコストを最小限に抑えることを目指していますが、他のプレイヤー(敵)はそれを最大化しようとします。
次に、決定論的政策勾配(DPG)とその深い強化学習のカウンターパートを使用して、効果的な妨害減衰を伴う堅牢な制御ポリシーを訓練します。
特に、実用的な実装のために、深いニューラルネットワークアーキテクチャを採用し、双子に耐えられた深い決定論的ポリシー勾配(TD3)の技術を統合して安定性と学習効率を高めるための技術を統合する、実用的な実装のために、堅牢な深い決定論的ポリシー勾配(RDDPG)を紹介します。
提案されたアルゴリズムを評価するために、妨害が発生しやすい環境で事前に定義されたパスに従うことを担当する無人航空機(UAV)に実装します。
実験結果は、提案された方法が、乱れに対する堅牢性の観点から他の制御アプローチを上回ることを示しており、深刻な妨害条件下でも移動ターゲットの正確なリアルタイム追跡を可能にします。

要約(オリジナル)

Practical control systems pose significant challenges in identifying optimal control policies due to uncertainties in the system model and external disturbances. While $H_\infty$ control techniques are commonly used to design robust controllers that mitigate the effects of disturbances, these methods often require complex and computationally intensive calculations. To address this issue, this paper proposes a reinforcement learning algorithm called Robust Deterministic Policy Gradient (RDPG), which formulates the $H_\infty$ control problem as a two-player zero-sum dynamic game. In this formulation, one player (the user) aims to minimize the cost, while the other player (the adversary) seeks to maximize it. We then employ deterministic policy gradient (DPG) and its deep reinforcement learning counterpart to train a robust control policy with effective disturbance attenuation. In particular, for practical implementation, we introduce an algorithm called robust deep deterministic policy gradient (RDDPG), which employs a deep neural network architecture and integrates techniques from the twin-delayed deep deterministic policy gradient (TD3) to enhance stability and learning efficiency. To evaluate the proposed algorithm, we implement it on an unmanned aerial vehicle (UAV) tasked with following a predefined path in a disturbance-prone environment. The experimental results demonstrate that the proposed method outperforms other control approaches in terms of robustness against disturbances, enabling precise real-time tracking of moving targets even under severe disturbance conditions.

arxiv情報

著者 Taeho Lee,Donghwan Lee
発行日 2025-03-06 11:02:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク