要約
この論文では、SigmaRL という名前のオープンソースの分散フレームワークを紹介します。これは、コネクテッドおよび自動運転車両の動作計画のためのサンプル効率とマルチエージェント強化学習 (RL) の一般化の両方を強化するように設計されています。
ほとんどの RL エージェントは一般化する能力が限られており、特定のシナリオに限定的に焦点を当てていることが多く、通常はトレーニング中に見られる類似または同じシナリオで評価されます。
これらの課題に対処するために、経験の再生や正則化などのさまざまな方法が提案されています。
ただし、RL での観察設計がサンプル効率と一般化にどのような影響を与えるかについては、依然として研究が進んでいない領域です。
私たちは、ほとんどの交通シナリオに適用できる一般的な特徴に焦点を当て、情報密度の高い観測を設計するための 5 つの戦略を提案することで、このギャップに対処します。
私たちは交差点でこれらの戦略を使用して RL エージェントをトレーニングし、新しい交差点、ランプ、ラウンドアバウトなど、まったく見たことのない交通シナリオにわたる数値実験を通じてその一般化を評価します。
これらの情報密度の高い観察を組み込むことで、トレーニング時間が単一 CPU で 1 時間未満に短縮され、評価結果から、RL エージェントが効果的にゼロショット汎化できることが明らかになりました。
コード: github.com/cas-lab-munich/SigmaRL
要約(オリジナル)
This paper introduces an open-source, decentralized framework named SigmaRL, designed to enhance both sample efficiency and generalization of multi-agent Reinforcement Learning (RL) for motion planning of connected and automated vehicles. Most RL agents exhibit a limited capacity to generalize, often focusing narrowly on specific scenarios, and are usually evaluated in similar or even the same scenarios seen during training. Various methods have been proposed to address these challenges, including experience replay and regularization. However, how observation design in RL affects sample efficiency and generalization remains an under-explored area. We address this gap by proposing five strategies to design information-dense observations, focusing on general features that are applicable to most traffic scenarios. We train our RL agents using these strategies on an intersection and evaluate their generalization through numerical experiments across completely unseen traffic scenarios, including a new intersection, an on-ramp, and a roundabout. Incorporating these information-dense observations reduces training times to under one hour on a single CPU, and the evaluation results reveal that our RL agents can effectively zero-shot generalize. Code: github.com/cas-lab-munich/SigmaRL
arxiv情報
著者 | Jianye Xu,Pan Hu,Bassam Alrifaee |
発行日 | 2024-08-14 16:16:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google