要約
モデルベースの強化学習 (RL) は、仮想環境モデルを利用することにより、モデルフリー RL と比較して高いサンプル効率を示すことが期待されています。
しかし、複雑なシステムや環境では不確実性があるため、環境ダイナミクスを十分に正確に表現することは困難です。
不正確な環境モデルは、モデルベースの RL のサンプル効率とパフォーマンスを低下させる可能性があります。
さらに、モデルベースの RL はサンプル効率を向上させることができますが、多くの場合、依然としてゼロから学習するにはかなりのトレーニング時間が必要であり、モデルフリーのアプローチと比較した利点が制限される可能性があります。
これらの課題に対処するために、この論文では、確立された専門知識を学習プロセスに注入し、ゼロから始めるという問題を回避することで学習効率を高めることを目的とした、知識情報に基づくモデルベースの残差強化学習フレームワークを紹介します。
当社のアプローチは、交通の専門知識を仮想環境モデルに統合し、基本的なダイナミクスにはインテリジェント ドライバー モデル (IDM) を、残差ダイナミクスにはニューラル ネットワークを採用して、複雑なシナリオへの適応性を確保します。
我々は、従来の制御手法と残差 RL を組み合わせた新しい戦略を提案し、ゼロから学習する必要なく効率的な学習とポリシーの最適化を促進します。
提案されたアプローチは、混合交通流におけるストップアンドゴー波の消散のための CAV 軌道制御タスクに適用されます。
実験結果は、私たちが提案したアプローチにより、CAV エージェントがサンプル効率、交通の流れの滑らかさ、および交通の移動性の点で、ベースライン エージェントと比較して軌道制御において優れたパフォーマンスを達成できることを示しています。
ソース コードと補足資料は https://github.com/zihaosheng/traffic-expertise-RL/ で入手できます。
要約(オリジナル)
Model-based reinforcement learning (RL) is anticipated to exhibit higher sample efficiency compared to model-free RL by utilizing a virtual environment model. However, it is challenging to obtain sufficiently accurate representations of the environmental dynamics due to uncertainties in complex systems and environments. An inaccurate environment model may degrade the sample efficiency and performance of model-based RL. Furthermore, while model-based RL can improve sample efficiency, it often still requires substantial training time to learn from scratch, potentially limiting its advantages over model-free approaches. To address these challenges, this paper introduces a knowledge-informed model-based residual reinforcement learning framework aimed at enhancing learning efficiency by infusing established expert knowledge into the learning process and avoiding the issue of beginning from zero. Our approach integrates traffic expert knowledge into a virtual environment model, employing the Intelligent Driver Model (IDM) for basic dynamics and neural networks for residual dynamics, thus ensuring adaptability to complex scenarios. We propose a novel strategy that combines traditional control methods with residual RL, facilitating efficient learning and policy optimization without the need to learn from scratch. The proposed approach is applied to CAV trajectory control tasks for the dissipation of stop-and-go waves in mixed traffic flow. Experimental results demonstrate that our proposed approach enables the CAV agent to achieve superior performance in trajectory control compared to the baseline agents in terms of sample efficiency, traffic flow smoothness and traffic mobility. The source code and supplementary materials are available at https://github.com/zihaosheng/traffic-expertise-RL/.
arxiv情報
著者 | Zihao Sheng,Zilin Huang,Sikai Chen |
発行日 | 2024-08-30 16:16:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google