Multitask Reinforcement Learning for Quadcopter Attitude Stabilization and Tracking using Graph Policy

要約

Quadcopterの態度制御には、スムーズな態度追跡と任意の状態からの積極的な安定化の2つのタスクが含まれます。
どちらも追跡の問題として策定できますが、それらの明確な状態空間と制御戦略により、統一された報酬機能が複雑になります。
Isaacgymと並列シミュレーションと、両方のタスクに効果的に対処するためのグラフ畳み込みネットワーク(GCN)ポリシーを活用するマルチタスクディープ補強学習フレームワークを提案します。
当社のマルチタスクソフトアクタークリティック(SAC)アプローチは、シングルタスク方法よりも高速で信頼性の高い学習とより高いサンプル効率を達成します。
Pixhawkフライトコントローラー上に、学習ポリシー(レイヤーあたり24のニューロンを持つコンパクトな2層ネットワーク)を展開することにより、実際の適用性を検証し、追加の計算リソースなしで400 Hzのコントロールを達成します。
https://github.com/robot-perception-group/graphmtsac\_uav/でコードを提供します。

要約(オリジナル)

Quadcopter attitude control involves two tasks: smooth attitude tracking and aggressive stabilization from arbitrary states. Although both can be formulated as tracking problems, their distinct state spaces and control strategies complicate a unified reward function. We propose a multitask deep reinforcement learning framework that leverages parallel simulation with IsaacGym and a Graph Convolutional Network (GCN) policy to address both tasks effectively. Our multitask Soft Actor-Critic (SAC) approach achieves faster, more reliable learning and higher sample efficiency than single-task methods. We validate its real-world applicability by deploying the learned policy – a compact two-layer network with 24 neurons per layer – on a Pixhawk flight controller, achieving 400 Hz control without extra computational resources. We provide our code at https://github.com/robot-perception-group/GraphMTSAC\_UAV/.

arxiv情報

著者 Yu Tang Liu,Afonso Vale,Aamir Ahmad,Rodrigo Ventura,Meysam Basiri
発行日 2025-03-11 10:22:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク