Dynamic Q-planning for Online UAV Path Planning in Unknown and Complex Environments

要約

無人航空機は、未知の複雑な環境でリスクの高いミッションを安全に完了するために移動するオンライン経路計画機能を必要とします。
ただし、文献で報告されている多くのアルゴリズムは、これらのシナリオでオンラインの問題を解決するための信頼できる軌跡を返さない可能性があります。
強化学習手法の 1 つである Q ラーニング アルゴリズムは、リアルタイムで軌道を生成でき、高速で信頼性の高い結果が実証されています。
ただし、この手法には反復回数を定義するという欠点があります。
この値が適切に定義されていないと、時間がかかったり、最適な軌道が返されなかったりします。
したがって、Q ラーニングの最高のパフォーマンスを得るために反復回数を動的に選択する方法を提案します。
提案された方法は、固定反復回数の Q ラーニング アルゴリズム、A*、Rapid-Exploring Random Tree、および Particle Swarm Optimization と比較されます。
その結果、提案された Q ラーニング アルゴリズムは、未知の複雑な環境でオンライン ミッションを実行するための動的反復回数によるオンライン パス プランニングの有効性と信頼性を実証します。

要約(オリジナル)

Unmanned Aerial Vehicles need an online path planning capability to move in high-risk missions in unknown and complex environments to complete them safely. However, many algorithms reported in the literature may not return reliable trajectories to solve online problems in these scenarios. The Q-Learning algorithm, a Reinforcement Learning Technique, can generate trajectories in real-time and has demonstrated fast and reliable results. This technique, however, has the disadvantage of defining the iteration number. If this value is not well defined, it will take a long time or not return an optimal trajectory. Therefore, we propose a method to dynamically choose the number of iterations to obtain the best performance of Q-Learning. The proposed method is compared to the Q-Learning algorithm with a fixed number of iterations, A*, Rapid-Exploring Random Tree, and Particle Swarm Optimization. As a result, the proposed Q-learning algorithm demonstrates the efficacy and reliability of online path planning with a dynamic number of iterations to carry out online missions in unknown and complex environments.

arxiv情報

著者 Lidia Gianne Souza da Rocha,Kenny Anderson Queiroz Caldas,Marco Henrique Terra,Fabio Ramos,Kelen Cristiane Teixeira Vivaldini
発行日 2024-02-09 10:19:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク