要約
このペーパーでは、接続された車両および自動車のモーション計画のためのマルチエージェント補強学習(RL)のサンプル効率と一般化の両方を強化するように設計されたSigmarlという名前のオープンソースの分散型フレームワークを紹介します。
ほとんどのRLエージェントは、一般化するための限られた能力を示し、多くの場合、特定のシナリオに狭く焦点を当て、通常、トレーニング中に見られる類似または同じシナリオで評価されます。
経験のリプレイや正規化など、これらの課題に対処するために、さまざまな方法が提案されています。
ただし、RLでの観測設計がサンプルの効率にどのように影響し、一般化が依存していない領域のままです。
ほとんどのトラフィックシナリオに適用される一般的な機能に焦点を当て、情報密度の高い観察を設計するための5つの戦略を提案することにより、このギャップに対処します。
交差点でこれらの戦略を使用してRLエージェントを訓練し、新しい交差点、ランプ、ラウンドアバウトなど、完全に目に見えないトラフィックシナリオにわたって数値実験を通じて一般化を評価します。
これらの情報密度の高い観測を組み込むと、1つのCPUでトレーニング時間が1時間未満に短縮され、評価結果により、RLエージェントが効果的にゼロショットが一般化できることが明らかになります。
コード:github.com/bassamlab/sigmarl
要約(オリジナル)
This paper introduces an open-source, decentralized framework named SigmaRL, designed to enhance both sample efficiency and generalization of multi-agent Reinforcement Learning (RL) for motion planning of connected and automated vehicles. Most RL agents exhibit a limited capacity to generalize, often focusing narrowly on specific scenarios, and are usually evaluated in similar or even the same scenarios seen during training. Various methods have been proposed to address these challenges, including experience replay and regularization. However, how observation design in RL affects sample efficiency and generalization remains an under-explored area. We address this gap by proposing five strategies to design information-dense observations, focusing on general features that are applicable to most traffic scenarios. We train our RL agents using these strategies on an intersection and evaluate their generalization through numerical experiments across completely unseen traffic scenarios, including a new intersection, an on-ramp, and a roundabout. Incorporating these information-dense observations reduces training times to under one hour on a single CPU, and the evaluation results reveal that our RL agents can effectively zero-shot generalize. Code: github.com/bassamlab/SigmaRL
arxiv情報
著者 | Jianye Xu,Pan Hu,Bassam Alrifaee |
発行日 | 2025-04-10 12:22:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google