iLLM-TSC: Integration reinforcement learning and large language model for traffic signal control policy improvement

要約

都市部の渋滞は依然として重大な課題であり、交通信号制御 (TSC) が有力な解決策として浮上しています。
TSC は多くの場合、マルコフ決定プロセス問題としてモデル化され、効果的であることが証明されている強化学習 (RL) を使用して解決されます。
しかし、既存の RL ベースの TSC システムでは、パケット損失、遅延、ノイズなどの通信の劣化によって引き起こされる不完全な観測や、考慮されていない緊急車両など、報酬関数に含まれていないまれな現実のイベントが見逃されることがよくあります。
これらの制限に対処するために、大規模言語モデル (LLM) と RL を組み合わせた新しい統合フレームワークを導入します。
このフレームワークは、報酬関数の見落とされている要素と状態情報のギャップを管理し、それによって RL エージェントのポリシーを強化するように設計されています。
私たちのアプローチでは、RL は最初に観察されたデータに基づいて意思決定を行います。
その後、LLM はこれらの決定を評価して、その合理性を検証します。
決定が不合理であると判断された場合は、それに応じて調整されます。
さらに、この統合アプローチは、変更を必要とせずに既存の RL ベースの TSC システムとシームレスに統合できます。
広範なテストにより、当社のアプローチは、従来の RL 手法と比較して、通信状態が悪化した場合の平均待ち時間を $17.5\%$ 短縮することが確認されており、インテリジェント交通システムにおける実用的な RL アプリケーションを前進させる可能性が強調されています。
関連コードは \url{https://github.com/Traffic-Alpha/iLLM-TSC} にあります。

要約(オリジナル)

Urban congestion remains a critical challenge, with traffic signal control (TSC) emerging as a potent solution. TSC is often modeled as a Markov Decision Process problem and then solved using reinforcement learning (RL), which has proven effective. However, the existing RL-based TSC system often overlooks imperfect observations caused by degraded communication, such as packet loss, delays, and noise, as well as rare real-life events not included in the reward function, such as unconsidered emergency vehicles. To address these limitations, we introduce a novel integration framework that combines a large language model (LLM) with RL. This framework is designed to manage overlooked elements in the reward function and gaps in state information, thereby enhancing the policies of RL agents. In our approach, RL initially makes decisions based on observed data. Subsequently, LLMs evaluate these decisions to verify their reasonableness. If a decision is found to be unreasonable, it is adjusted accordingly. Additionally, this integration approach can be seamlessly integrated with existing RL-based TSC systems without necessitating modifications. Extensive testing confirms that our approach reduces the average waiting time by $17.5\%$ in degraded communication conditions as compared to traditional RL methods, underscoring its potential to advance practical RL applications in intelligent transportation systems. The related code can be found at \url{https://github.com/Traffic-Alpha/iLLM-TSC}.

arxiv情報

著者 Aoyu Pang,Maonan Wang,Man-On Pun,Chung Shue Chen,Xi Xiong
発行日 2024-07-08 15:22:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク