Collaborative Reinforcement Learning Based Unmanned Aerial Vehicle (UAV) Trajectory Design for 3D UAV Tracking


この論文では、1 台のアクティブ無人航空機 (UAV) と 4 台のパッシブ UAV を使用して 3D ターゲット UAV の位置をリアルタイムで特定する問題を調査します。
考慮されているモデルでは、各パッシブ UAV はターゲット UAV から反射信号を受信します。反射信号は、アクティブ UAV によって最初に送信されます。
受信した反射信号により、各パッシブ UAV は、ターゲット UAV の位置を推定するために基地局 (BS) に送信される信号伝送距離を推定できます。
ターゲット UAV の移動により、各アクティブ/パッシブ UAV は、ターゲット UAV の位置を継続的に特定するために軌道を最適化する必要があります。
一方、距離推定の精度は送信信号の信号対雑音比に依存するため、アクティブな UAV は送信電力を最適化する必要があります。
この問題は最適化問題として定式化され、その目標は、ターゲット UAV の測位精度を最大化するために、アクティブ UAV の送信電力とアクティブ UAV とパッシブ UAV の両方の軌道を共同で最適化することです。
この問題を解決するために、Z 関数分解に基づく強化学習 (ZD-RL) 手法が提案されています。
価値関数分解ベースの RL (VD-RL) と比較して、提案された方法は将来の報酬の合計の確率分布を見つけて将来の報酬の合計の期待値を正確に推定できるため、アクティブな UAV と軌道のより良い送信電力を見つけることができます。
アクティブ UAV とパッシブ UAV の両方に対応し、ターゲット UAV の測位精度を向上させます。
シミュレーション結果は、提案された ZD-RL 方法が、VD-RL 方法と独立したディープ RL 方法と比較して、位置決め誤差をそれぞれ最大 39.4% と最大 64.6% 削減できることを示しています。


In this paper, the problem of using one active unmanned aerial vehicle (UAV) and four passive UAVs to localize a 3D target UAV in real time is investigated. In the considered model, each passive UAV receives reflection signals from the target UAV, which are initially transmitted by the active UAV. The received reflection signals allow each passive UAV to estimate the signal transmission distance which will be transmitted to a base station (BS) for the estimation of the position of the target UAV. Due to the movement of the target UAV, each active/passive UAV must optimize its trajectory to continuously localize the target UAV. Meanwhile, since the accuracy of the distance estimation depends on the signal-to-noise ratio of the transmission signals, the active UAV must optimize its transmit power. This problem is formulated as an optimization problem whose goal is to jointly optimize the transmit power of the active UAV and trajectories of both active and passive UAVs so as to maximize the target UAV positioning accuracy. To solve this problem, a Z function decomposition based reinforcement learning (ZD-RL) method is proposed. Compared to value function decomposition based RL (VD-RL), the proposed method can find the probability distribution of the sum of future rewards to accurately estimate the expected value of the sum of future rewards thus finding better transmit power of the active UAV and trajectories for both active and passive UAVs and improving target UAV positioning accuracy. Simulation results show that the proposed ZD-RL method can reduce the positioning errors by up to 39.4% and 64.6%, compared to VD-RL and independent deep RL methods, respectively.


著者 Yujiao Zhu,Mingzhe Chen,Sihua Wang,Ye Hu,Yuchen Liu,Changchuan Yin
発行日 2024-01-22 16:21:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.LG, cs.MA パーマリンク