Motion Control in Multi-Rotor Aerial Robots Using Deep Reinforcement Learning

要約

このペーパーでは、添加剤のドローン(AM)のモーションコントロールの課題に対処するために、ディープ補強材(DRL)学習の適用を調査します。
ドローンベースの添加剤製造は、大規模または危険な環境で柔軟で自律的な材料の堆積を約束します。
ただし、さまざまなペイロードと潜在的な障害の下で、マルチローターの空中ロボットの堅牢なリアルタイム制御を達成することは依然として困難です。
PIDのような従来のコントローラーは、多くの場合、頻繁にパラメーターを再調整する必要があり、動的シナリオでの適用性を制限します。
AMタスクでウェイポイントナビゲーションを実行するマルチロータードローンの適応可能な制御ポリシーを学習するDRLフレームワークを提案します。
深い決定論的ポリシーグラデーション(DDPG)とツインの遅延により、複雑さの増加を処理するように設計されたカリキュラム学習スキーム内で、深い決定論的ポリシー勾配(TD3)を比較します。
私たちの実験では、TD3が一貫してトレーニングの安定性、精度、および成功をバランスさせていることが示されています。特に、質量のばらつきが導入された場合です。
これらの発見は、添加剤の製造における堅牢で自律的なドローン制御へのスケーラブルなパスを提供します。

要約(オリジナル)

This paper investigates the application of Deep Reinforcement (DRL) Learning to address motion control challenges in drones for additive manufacturing (AM). Drone-based additive manufacturing promises flexible and autonomous material deposition in large-scale or hazardous environments. However, achieving robust real-time control of a multi-rotor aerial robot under varying payloads and potential disturbances remains challenging. Traditional controllers like PID often require frequent parameter re-tuning, limiting their applicability in dynamic scenarios. We propose a DRL framework that learns adaptable control policies for multi-rotor drones performing waypoint navigation in AM tasks. We compare Deep Deterministic Policy Gradient (DDPG) and Twin Delayed Deep Deterministic Policy Gradient (TD3) within a curriculum learning scheme designed to handle increasing complexity. Our experiments show TD3 consistently balances training stability, accuracy, and success, particularly when mass variability is introduced. These findings provide a scalable path toward robust, autonomous drone control in additive manufacturing.

arxiv情報

著者 Gaurav Shetty,Mahya Ramezani,Hamed Habibi,Holger Voos,Jose Luis Sanchez-Lopez
発行日 2025-02-09 19:00:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク