要約
自動運転車(AV)は近年大きな注目を集めており、強化学習(RL)は車両の自律性の向上において顕著なパフォーマンスを示しています。
この点に関して、広く採用されているモデルフリー RL (MFRL) は、トレーニング用の大量のデータ サンプルの準備が整っていることを条件として、コネクテッド AV (CAV) での意思決定タスクを解決することを約束します。
それにもかかわらず、それは実際には実行不可能であり、学習が不安定になる可能性があります。
対照的に、モデルベース RL (MBRL) はサンプル効率の高い学習を実現しますが、MBRL の漸近的なパフォーマンスは最先端の MFRL アルゴリズムに遅れる可能性があります。
さらに、CAV に関するほとんどの研究は単一の AV のみの意思決定に限定されているため、通信がないことによるパフォーマンスが強調されています。
この研究では、通信が制限された複数の CAV の意思決定問題に対処し、軌道サンプリング アルゴリズム MA-PETS を使用した分散型マルチエージェント確率的アンサンブルを提案します。
特に、未知の環境の不確実性をより適切に捉えるために、MA-PETS は確率的アンサンブル (PE) ニューラル ネットワークを活用して、隣接する CAV 間で通信されたサンプルから学習します。
その後、MA-PETS は、意思決定のための軌道サンプリング (TS) ベースのモデル予測制御を開発できるようになります。
これに基づいて、通信範囲内のエージェントの数によって影響を受けるマルチエージェントのグループリグレス限界を導出し、マルチエージェント学習スキームにエージェント間の効果的な情報交換を組み込むことが、最悪の場合のグループリグレス限界の削減に貢献することを数学的に検証します。
場合。
最後に、MFBL に匹敵するサンプル効率の点で MA-PETS の優位性を経験的に示します。
要約(オリジナル)
Autonomous Vehicles (AVs) have attracted significant attention in recent years and Reinforcement Learning (RL) has shown remarkable performance in improving the autonomy of vehicles. In that regard, the widely adopted Model-Free RL (MFRL) promises to solve decision-making tasks in connected AVs (CAVs), contingent on the readiness of a significant amount of data samples for training. Nevertheless, it might be infeasible in practice and possibly lead to learning instability. In contrast, Model-Based RL (MBRL) manifests itself in sample-efficient learning, but the asymptotic performance of MBRL might lag behind the state-of-the-art MFRL algorithms. Furthermore, most studies for CAVs are limited to the decision-making of a single AV only, thus underscoring the performance due to the absence of communications. In this study, we try to address the decision-making problem of multiple CAVs with limited communications and propose a decentralized Multi-Agent Probabilistic Ensembles with Trajectory Sampling algorithm MA-PETS. In particular, in order to better capture the uncertainty of the unknown environment, MA-PETS leverages Probabilistic Ensemble (PE) neural networks to learn from communicated samples among neighboring CAVs. Afterwards, MA-PETS capably develops Trajectory Sampling (TS)-based model-predictive control for decision-making. On this basis, we derive the multi-agent group regret bound affected by the number of agents within the communication range and mathematically validate that incorporating effective information exchange among agents into the multi-agent learning scheme contributes to reducing the group regret bound in the worst case. Finally, we empirically demonstrate the superiority of MA-PETS in terms of the sample efficiency comparable to MFBL.
arxiv情報
著者 | Ruoqi Wen,Jiahao Huang,Rongpeng Li,Guoru Ding,Zhifeng Zhao |
発行日 | 2024-07-17 03:10:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google