LLM Powered Sim-to-real Transfer for Traffic Signal Control

要約

効率的な輸送を提供し、渋滞の無駄を軽減することを目的として、交通信号制御 (TSC) タスクに対して数多くのソリューションが提案されています。
最近では、シミュレーターでの試行錯誤を通じて強化学習 (RL) 手法によって有望な結果が得られ、都市の渋滞の悩みの解決に自信をもたらしています。
ただし、シミュレーターでトレーニングされたポリシーを現実世界に展開すると、依然としてパフォーマンスのギャップが存在します。
この問題は主に、トレーニング シミュレーターと現実世界の環境の間のシステムの動的な違いによって発生します。
大規模言語モデル (LLM) は大量の知識に基づいてトレーニングされ、驚くべき推論能力を備えていることが証明されています。
この作業では、LLM を活用して、プロンプトベースのグラウンディング アクション変換によってシステム ダイナミクスを理解し、プロファイリングします。
Cloze プロンプト テンプレートを受け入れ、アクセス可能なコンテキストに基づいて回答を入力すると、事前トレーニングされた LLM の推論能力が活用され、気象条件、交通状態、道路の種類が交通ダイナミクスにどのような影響を与えるかを理解するために適用されます。
ポリシーのアクションは現実的なダイナミクスに基づいて実行され、根拠が示されるため、エージェントがより現実的なポリシーを学習するのに役立ちます。
我々は、DQN を使用して実験を実施し、シミュレーションから現実 (sim-to-real) までのパフォーマンスのギャップを軽減する提案された PromptGAT の機能の有効性を示します。

要約(オリジナル)

Numerous solutions are proposed for the Traffic Signal Control (TSC) tasks aiming to provide efficient transportation and mitigate congestion waste. In recent, promising results have been attained by Reinforcement Learning (RL) methods through trial and error in simulators, bringing confidence in solving cities’ congestion headaches. However, there still exist performance gaps when simulator-trained policies are deployed to the real world. This issue is mainly introduced by the system dynamic difference between the training simulator and the real-world environments. The Large Language Models (LLMs) are trained on mass knowledge and proved to be equipped with astonishing inference abilities. In this work, we leverage LLMs to understand and profile the system dynamics by a prompt-based grounded action transformation. Accepting the cloze prompt template, and then filling in the answer based on accessible context, the pre-trained LLM’s inference ability is exploited and applied to understand how weather conditions, traffic states, and road types influence traffic dynamics, being aware of this, the policies’ action is taken and grounded based on realistic dynamics, thus help the agent learn a more realistic policy. We conduct experiments using DQN to show the effectiveness of the proposed PromptGAT’s ability in mitigating the performance gap from simulation to reality (sim-to-real).

arxiv情報

著者 Longchao Da,Minchiuan Gao,Hao Mei,Hua Wei
発行日 2024-01-08 10:03:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, H.4.0 パーマリンク