Actuator Trajectory Planning for UAVs with Overhead Manipulator using Reinforcement Learning

要約

この論文では、空中マニピュレータ システム、つまり飛行中に作動タスクを実行するための 2 自由度の制御可能なアームを備えた無人航空機 (UAV) の動作を調査します。
私たちのソリューションは、エンドエフェクターとも呼ばれるアームの先端の軌道を制御する Q 学習方法の採用に基づいています。
より具体的には、衝突までの時間 (TTC) に基づいた動作計画モデルを開発します。これにより、マニピュレーターの到達可能性を確保しながら、クワッドローター UAV が障害物を回避して移動できるようになります。
さらに、モデルベースの Q 学習モデルを利用して、UAV プラットフォームの任意のベースライン軌道を考慮して、マニピュレーターのエンドエフェクターの望ましい軌道を独立して追跡および制御します。
このような組み合わせにより、飛行制御ファームウェアとの互換性を維持しながら、高所での溶接、構造物の監視と修理、バッテリー交換、側溝の清掃、高層ビルの清掃、アクセスが困難で危険な環境での送電線のメンテナンスなどのさまざまな作動タスクが可能になります。

当社の RL ベースの制御メカニズムは、UAV の動きの不確実性を処理できる堅牢な制御戦略をもたらし、有望なパフォーマンスを提供します。
具体的には、私たちの方法は、15,000エピソードのQラーニングを使用して、平均変位誤差(つまり、ターゲットと取得された軌道点の間の平均距離)に関して92%の精度を達成しています。

要約(オリジナル)

In this paper, we investigate the operation of an aerial manipulator system, namely an Unmanned Aerial Vehicle (UAV) equipped with a controllable arm with two degrees of freedom to carry out actuation tasks on the fly. Our solution is based on employing a Q-learning method to control the trajectory of the tip of the arm, also called end-effector. More specifically, we develop a motion planning model based on Time To Collision (TTC), which enables a quadrotor UAV to navigate around obstacles while ensuring the manipulator’s reachability. Additionally, we utilize a model-based Q-learning model to independently track and control the desired trajectory of the manipulator’s end-effector, given an arbitrary baseline trajectory for the UAV platform. Such a combination enables a variety of actuation tasks such as high-altitude welding, structural monitoring and repair, battery replacement, gutter cleaning, skyscrapper cleaning, and power line maintenance in hard-to-reach and risky environments while retaining compatibility with flight control firmware. Our RL-based control mechanism results in a robust control strategy that can handle uncertainties in the motion of the UAV, offering promising performance. Specifically, our method achieves 92% accuracy in terms of average displacement error (i.e. the mean distance between the target and obtained trajectory points) using Q-learning with 15,000 episodes

arxiv情報

著者 Hazim Alzorgan,Abolfazl Razi,Ata Jahangir Moshayedi
発行日 2023-08-25 16:28:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク