A deep inverse reinforcement learning approach to route choice modeling with context-dependent rewards

要約

ルート選択モデリングは、輸送計画と需要予測における基本的なタスクです。
従来の方法では、一般に、線形効用関数と高レベルのルート特性を備えた離散選択モデル (DCM) フレームワークが採用されています。
いくつかの最近の研究では、ルート選択モデリングへの深層学習の適用可能性を調査し始めていますが、それらは比較的単純なモデル アーキテクチャを持ち、事前定義された選択セットに依存するパスベースのモデルに限定されています。
既存のリンクベースのモデルは、選択セットの生成を必要とせずに、旅行中のリンク選択の動的な性質を捉えることができますが、依然として線形関係とリンク追加機能を想定しています。
これらの問題に対処するために、この研究では、リンクベースのルート選択モデリングのための一般的な深層逆強化学習 (IRL) フレームワークを提案します。これは、(状態、アクション、トリップ コンテキストの) 多様な機能を組み込み、複雑な関係をキャプチャすることができます。
具体的には、敵対的 IRL モデルをルート選択問題に適応させて、値の反復なしでコンテキスト依存の報酬関数を効率的に推定します。
中国の上海からのタクシー GPS データに基づく実験結果は、従来の DCM やその他の模倣学習ベースラインよりも提案されたモデルの優れた予測性能を検証しており、トレーニング データでは見えない目的地についても同様です。
さらなる分析は、モデルが競争力のある計算効率と合理的な解釈可能性を示すことを示しています。
提案された方法論は、ルート選択モデルの将来の開発に新しい方向性を提供します。
これは一般的であり、さまざまなモードやネットワークにわたる他のルート選択の問題に適応できます。

要約(オリジナル)

Route choice modeling is a fundamental task in transportation planning and demand forecasting. Classical methods generally adopt the discrete choice model (DCM) framework with linear utility functions and high-level route characteristics. While several recent studies have started to explore the applicability of deep learning for route choice modeling, they are limited to path-based models with relatively simple model architectures and relying on predefined choice sets. Existing link-based models can capture the dynamic nature of link choices within the trip without the need for choice set generation, but still assume linear relationships and link-additive features. To address these issues, this study proposes a general deep inverse reinforcement learning (IRL) framework for link-based route choice modeling, which is capable of incorporating diverse features (of the state, action and trip context) and capturing complex relationships. Specifically, we adapt an adversarial IRL model to the route choice problem for efficient estimation of context-dependent reward functions without value iteration. Experiment results based on taxi GPS data from Shanghai, China validate the superior prediction performance of the proposed model over conventional DCMs and other imitation learning baselines, even for destinations unseen in the training data. Further analysis show that the model exhibits competitive computational efficiency and reasonable interpretability. The proposed methodology provides a new direction for future development of route choice models. It is general and can be adaptable to other route choice problems across different modes and networks.

arxiv情報

著者 Zhan Zhao,Yuebing Liang
発行日 2023-02-28 11:54:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク