Model-Free versus Model-Based Reinforcement Learning for Fixed-Wing UAV Attitude Control Under Varying Wind Conditions

要約

この論文では、PID を参照点として使用した固定翼無人航空機の姿勢制御のためのモデルフリーおよびモデルベースの強化学習のパフォーマンスを評価および比較します。
この比較は、シミュレートされた環境でのさまざまな飛行力学と風の外乱に対処する能力に焦点を当てています。
私たちの結果は、時間差分モデル予測制御エージェントが、特に非線形飛行体制において、さまざまな参照困難に対する追跡精度とロバスト性の点で、PID コントローラーや他のモデルフリー強化学習手法よりも優れていることを示しています。
さらに、エネルギー効率とアクチュエータの摩耗を評価するための重要な指標として作動変動を導入し、文献からの 2 つの異なるアプローチ、つまりアクション変動ペナルティとアクション ポリシーのスムーズさのための条件付けをテストします。
また、確率的乱流と突風にさらされた場合のすべての制御方法を個別に評価して、追跡パフォーマンスに対するそれらの影響を測定し、その限界を観察し、マルコフ決定プロセスの形式主義へ​​の影響を概説します。

要約(オリジナル)

This paper evaluates and compares the performance of model-free and model-based reinforcement learning for the attitude control of fixed-wing unmanned aerial vehicles using PID as a reference point. The comparison focuses on their ability to handle varying flight dynamics and wind disturbances in a simulated environment. Our results show that the Temporal Difference Model Predictive Control agent outperforms both the PID controller and other model-free reinforcement learning methods in terms of tracking accuracy and robustness over different reference difficulties, particularly in nonlinear flight regimes. Furthermore, we introduce actuation fluctuation as a key metric to assess energy efficiency and actuator wear, and we test two different approaches from the literature: action variation penalty and conditioning for action policy smoothness. We also evaluate all control methods when subject to stochastic turbulence and gusts separately, so as to measure their effects on tracking performance, observe their limitations and outline their implications on the Markov decision process formalism.

arxiv情報

著者 David Olivares,Pierre Fournier,Pavan Vasishta,Julien Marzat
発行日 2024-09-26 14:47:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO, cs.SY, eess.SY パーマリンク