要約
無人航空機 (UAV) を利用してタスクを実行することは、最近人気が高まっています。
根底にあるタスク スケジューリングの問題を解決するために、深層強化学習 (DRL) ベースの手法は、手作業で作成されたルールへの依存度が低いため、従来のヒューリスティックに比べて顕著な利点を示しています。
ただし、問題がスケールアップするにつれて、決定空間が法外に巨大になり、計算効率が低下します。
この問題を軽減するために、分割統治フレームワーク (DCF) に基づく二重レベル深層強化学習 (DL-DRL) アプローチを提案します。このアプローチでは、マルチ UAV のタスク スケジューリングをタスク割り当てとルート計画に分解します。
特に、上位レベルの DRL モデルでエンコーダ-デコーダ構造のポリシー ネットワークを設計して、タスクをさまざまな UAV に割り当てます。また、下位レベルの DRL モデルで別のアテンション ベースのポリシー ネットワークを利用して、各 UAV のルートを構築します。
UAV の最大飛行距離を考慮して、実行されるタスクの数を最大化することが目的です。
2 つのモデルを効果的にトレーニングするために、事前トレーニング、集中トレーニング、代替トレーニングを含む対話型トレーニング戦略 (ITS) を設計します。
実験結果は、当社の DL-DRL が、ソリューションの品質と計算効率の点で、学習ベースおよび OR ツールを含む従来のベースラインに対して有利に機能することを示しています。
また、最大 1000 個のタスクというより大きなサイズに適用して、アプローチの一般化パフォーマンスを検証します。
さらに、アブレーション研究を通じて、当社の ITS がパフォーマンスとトレーニング効率のバランスを達成するのに役立つことも示しています。
要約(オリジナル)
Exploiting unmanned aerial vehicles (UAVs) to execute tasks is gaining growing popularity recently. To solve the underlying task scheduling problem, the deep reinforcement learning (DRL) based methods demonstrate notable advantage over the conventional heuristics as they rely less on hand-engineered rules. However, their decision space will become prohibitively huge as the problem scales up, thus deteriorating the computation efficiency. To alleviate this issue, we propose a double-level deep reinforcement learning (DL-DRL) approach based on a divide and conquer framework (DCF), where we decompose the task scheduling of multi-UAV into task allocation and route planning. Particularly, we design an encoder-decoder structured policy network in our upper-level DRL model to allocate the tasks to different UAVs, and we exploit another attention based policy network in our lower-level DRL model to construct the route for each UAV, with the objective to maximize the number of executed tasks given the maximum flight distance of the UAV. To effectively train the two models, we design an interactive training strategy (ITS), which includes pre-training, intensive training and alternate training. Experimental results show that our DL-DRL performs favorably against the learning-based and conventional baselines including the OR-Tools, in terms of solution quality and computation efficiency. We also verify the generalization performance of our approach by applying it to larger sizes of up to 1000 tasks. Moreover, we also show via an ablation study that our ITS can help achieve a balance between the performance and training efficiency.
arxiv情報
著者 | Xiao Mao,Zhiguang Cao,Mingfeng Fan,Guohua Wu,Witold Pedrycz |
発行日 | 2023-06-06 07:45:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google