要約
この記事では、事前定義されたパフォーマンス基準を満たす四肢装置の強化学習ベースの堅牢な安定コントローラーを開発するためのカリキュラム学習アプローチを紹介します。
学習目的は、一時的および定常状態のパフォーマンス仕様の両方に準拠しながら、ランダムな初期条件から望ましい位置を達成することです。
この目的は、位置と方向のダイナミクスの強い結合、報酬機能の設計と調整の複雑さ、および実質的な計算リソースとリードを必要とするサンプル効率の低下により、従来の1段階のエンドツーエンドの強化学習に挑戦的です。
収束時間を延長します。
これらの課題に対処するために、この作業は学習目標を3段階のカリキュラムに分解し、タスクの複雑さを徐々に増加させます。
カリキュラムは、固定された初期条件から安定したホバリングを達成することを学ぶことから始まり、その後、初期位置、方向、速度でランダム化を徐々に導入します。
過渡的および定常状態のパフォーマンス仕様を組み込むために、新しい添加剤報酬関数が提案されています。
結果は、提案された報酬構造と組み合わせた近位政策最適化(PPO)ベースのカリキュラム学習アプローチが、同じ報酬関数を備えた単一段階のPPO訓練ポリシーと比較して優れたパフォーマンスを達成することを示していますが、計算リソース要件と計算リソース要件と大幅に削減されます。
収束時間。
カリキュラム訓練を受けたポリシーのパフォーマンスと堅牢性は、ランダムな初期条件下で、妨害の存在下で徹底的に検証されます。
要約(オリジナル)
This article introduces a curriculum learning approach to develop a reinforcement learning-based robust stabilizing controller for a Quadrotor that meets predefined performance criteria. The learning objective is to achieve desired positions from random initial conditions while adhering to both transient and steady-state performance specifications. This objective is challenging for conventional one-stage end-to-end reinforcement learning, due to the strong coupling between position and orientation dynamics, the complexity in designing and tuning the reward function, and poor sample efficiency, which necessitates substantial computational resources and leads to extended convergence times. To address these challenges, this work decomposes the learning objective into a three-stage curriculum that incrementally increases task complexity. The curriculum begins with learning to achieve stable hovering from a fixed initial condition, followed by progressively introducing randomization in initial positions, orientations and velocities. A novel additive reward function is proposed, to incorporate transient and steady-state performance specifications. The results demonstrate that the Proximal Policy Optimization (PPO)-based curriculum learning approach, coupled with the proposed reward structure, achieves superior performance compared to a single-stage PPO-trained policy with the same reward function, while significantly reducing computational resource requirements and convergence time. The curriculum-trained policy’s performance and robustness are thoroughly validated under random initial conditions and in the presence of disturbances.
arxiv情報
著者 | Fausto Mauricio Lagos Suarez,Akshit Saradagi,Vidya Sumathy,Shruti Kotpaliwar,George Nikolakopoulos |
発行日 | 2025-01-30 17:05:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google