Bilevel Multi-Armed Bandit-Based Hierarchical Reinforcement Learning for Interaction-Aware Self-Driving at Unsignalized Intersections

要約

この作業では、署名されていない交差点での相互作用を認識した意思決定と計画のためのバイレベルマルチアライドベースの階層補強学習フレームワークであるBIM-ACPPOを紹介します。
基本的に、周囲の車両(SVS)に関連する不確実性を考慮に入れて、ドライバーの意図、インタラクティブな行動、さまざまな数のSVに起因するものを含む。
中間決定変数が導入され、高レベルのRLポリシーが、低レベルのモデル予測制御(MPC)をガイドし、提案されたフレームワークの一般化能力をさらに強化するための相互作用認識リファレンスを提供できるようにします。
無信号化された交差点での自動運転の構造化された性質を活用することにより、RLポリシーのトレーニング問題は、提案されたExp3.sベースのBimabアルゴリズムによって対処されるバイレベルカリキュラム学習タスクとしてモデル化されます。
トレーニングカリキュラムが動的に調整されているため、RLトレーニングプロセスのサンプル効率が促進されることは注目に値します。
比較実験は、忠実度の高いカーラシミュレーターで行われ、結果は、すべてのベースライン方法と比較して、私たちのアプローチが優れたパフォーマンスを達成することを示しています。
さらに、2つの新しい都市運転シナリオでの実験結果は、提案された方法の称賛に値する一般化パフォーマンスを明確に示しています。

要約(オリジナル)

In this work, we present BiM-ACPPO, a bilevel multi-armed bandit-based hierarchical reinforcement learning framework for interaction-aware decision-making and planning at unsignalized intersections. Essentially, it proactively takes the uncertainties associated with surrounding vehicles (SVs) into consideration, which encompass those stemming from the driver’s intention, interactive behaviors, and the varying number of SVs. Intermediate decision variables are introduced to enable the high-level RL policy to provide an interaction-aware reference, for guiding low-level model predictive control (MPC) and further enhancing the generalization ability of the proposed framework. By leveraging the structured nature of self-driving at unsignalized intersections, the training problem of the RL policy is modeled as a bilevel curriculum learning task, which is addressed by the proposed Exp3.S-based BiMAB algorithm. It is noteworthy that the training curricula are dynamically adjusted, thereby facilitating the sample efficiency of the RL training process. Comparative experiments are conducted in the high-fidelity CARLA simulator, and the results indicate that our approach achieves superior performance compared to all baseline methods. Furthermore, experimental results in two new urban driving scenarios clearly demonstrate the commendable generalization performance of the proposed method.

arxiv情報

著者 Zengqi Peng,Yubin Wang,Lei Zheng,Jun Ma
発行日 2025-02-06 10:50:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク