要約
PIDコントローラーのゲインのオンライン微調整のために、強化学習(RL)ベースの方法論が提案および実装されているため、四肢装置が効果的で正確な軌道追跡を改善します。
RLエージェントは、最初に四肢装置PID姿勢コントローラーでオフラインでトレーニングされ、その後、シミュレーションと実験飛行を通じて検証されます。
RLは、ポリックオフクリティックな方法である深い決定論的ポリシーグラデーション(DDPG)アルゴリズムを活用しています。
トレーニングとシミュレーションの研究は、MATLAB/SIMULINKとPX4オートパイロットのUAVツールボックスサポートパッケージを使用して実行されます。
パフォーマンス評価と比較研究は、ハンドチューニングとRLベースのチューニングアプローチの間で実行されます。
結果は、RLに基づくコントローラーパラメーターがフライト中に調整され、最小の姿勢エラーを達成するため、手でチューニングされたアプローチと比較して姿勢追跡パフォーマンスを大幅に改善することを示しています。
要約(オリジナル)
A reinforcement learning (RL) based methodology is proposed and implemented for online fine-tuning of PID controller gains, thus, improving quadrotor effective and accurate trajectory tracking. The RL agent is first trained offline on a quadrotor PID attitude controller and then validated through simulations and experimental flights. RL exploits a Deep Deterministic Policy Gradient (DDPG) algorithm, which is an off-policy actor-critic method. Training and simulation studies are performed using Matlab/Simulink and the UAV Toolbox Support Package for PX4 Autopilots. Performance evaluation and comparison studies are performed between the hand-tuned and RL-based tuned approaches. The results show that the controller parameters based on RL are adjusted during flights, achieving the smallest attitude errors, thus significantly improving attitude tracking performance compared to the hand-tuned approach.
arxiv情報
著者 | Serhat Sönmez,Luca Montecchio,Simone Martini,Matthew J. Rutherford,Alessandro Rizzo,Margareta Stefanovic,Kimon P. Valavanis |
発行日 | 2025-02-06 23:01:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google