A Graph-based Adversarial Imitation Learning Framework for Reliable & Realtime Fleet Scheduling in Urban Air Mobility

要約

Urban Air Mobility (UAM) の出現は、都市交通の領域に変革の余地をもたらします。
しかし、その広範な採用と経済的実行可能性は、空域の混雑、気象条件の変化、需要の変化による不確実性の下で、UAM ネットワーク内のバーティポート全体で航空機のフリートを最適にスケジュールできるかどうかに部分的にかかっています。
この論文では、フリート スケジューリング問題の包括的な最適化定式化を提示するとともに、結果として生じる整数非線形計画問題を直接解くことは、毎日のフリート スケジューリングにとって計算的に法外であるため、代替の解決アプローチの必要性も特定します。
これまでの研究では、(グラフ)強化学習(RL)アプローチを使用して、フリート スケジューリング用にリアルタイムで実行可能なポリシー モデルをトレーニングすることの有効性が示されています。
ただし、このようなポリシーは、配布外のシナリオやエッジケースでは脆弱になることがよくあります。
さらに、問題の複雑さ (制約の数など) が増加すると、トレーニングのパフォーマンスも低下します。
これらの問題に対処するために、この論文では、遺伝的アルゴリズムを使用して正確な最適化を解くことによって得られる専門家のデモンストレーションを RL ベースのポリシーで活用する模倣学習アプローチを紹介します。
このポリシー モデルは、ベルティポートと航空機の空間を埋め込むグラフ ニューラル ネットワーク (GNN) ベースのエンコーダー、需要、旅客運賃、輸送コストのプロファイルをエンコードするトランスフォーマー ネットワーク、およびマルチヘッド アテンション (MHA) ベースのデコーダーで構成されます。
専門家のデモンストレーションは、敵対的模倣学習 (GAIL) アルゴリズムを通じて使用されます。
8 台のバーティポートと 40 機の航空機を含む UAM シミュレーション環境とインターフェースすると、毎日得られる利益の観点から見ると、新しい模倣アプローチは、純粋な RL の結果と比較して、平均パフォーマンスが向上し、目に見えない最悪のシナリオの場合に顕著な改善を達成します。

要約(オリジナル)

The advent of Urban Air Mobility (UAM) presents the scope for a transformative shift in the domain of urban transportation. However, its widespread adoption and economic viability depends in part on the ability to optimally schedule the fleet of aircraft across vertiports in a UAM network, under uncertainties attributed to airspace congestion, changing weather conditions, and varying demands. This paper presents a comprehensive optimization formulation of the fleet scheduling problem, while also identifying the need for alternate solution approaches, since directly solving the resulting integer nonlinear programming problem is computationally prohibitive for daily fleet scheduling. Previous work has shown the effectiveness of using (graph) reinforcement learning (RL) approaches to train real-time executable policy models for fleet scheduling. However, such policies can often be brittle on out-of-distribution scenarios or edge cases. Moreover, training performance also deteriorates as the complexity (e.g., number of constraints) of the problem increases. To address these issues, this paper presents an imitation learning approach where the RL-based policy exploits expert demonstrations yielded by solving the exact optimization using a Genetic Algorithm. The policy model comprises Graph Neural Network (GNN) based encoders that embed the space of vertiports and aircraft, Transformer networks to encode demand, passenger fare, and transport cost profiles, and a Multi-head attention (MHA) based decoder. Expert demonstrations are used through the Generative Adversarial Imitation Learning (GAIL) algorithm. Interfaced with a UAM simulation environment involving 8 vertiports and 40 aircrafts, in terms of the daily profits earned reward, the new imitative approach achieves better mean performance and remarkable improvement in the case of unseen worst-case scenarios, compared to pure RL results.

arxiv情報

著者 Prithvi Poddar,Steve Paul,Souma Chowdhury
発行日 2024-09-05 17:01:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.MA パーマリンク