要約
強化学習(RL)は、自動運転の意思決定と制御の問題を解決する上で優れたパフォーマンスを示しており、多様な運転シナリオでの適用がますます増えています。
ただし、運転は複数の属性の問題であり、特にポリシーの実行とポリシーの反復の両方において、現在の RL 手法の多目的互換性を達成する際に課題が生じています。
一方で、シングル アクション タイプの共通アクション スペース構造では、駆動の柔軟性が制限されたり、ポリシー実行中に大きな動作の変動が生じたりします。
一方、複数の属性で重み付けされた単一の報酬関数では、ポリシーの反復中にエージェントが特定の目的に対して不均衡な注意を払うことになります。
この目的を達成するために、多目的互換の自動運転のためのハイブリッドパラメータ化アクションを備えた多目的アンサンブルクリティック強化学習手法を提案します。
具体的には、パラメータ化されたアクション空間が構築され、抽象的なガイダンスと具体的な制御コマンドの両方を組み合わせたハイブリッド運転アクションが生成されます。
複数の目標の批評家アーキテクチャは、複数の属性報酬を考慮して構築されており、さまざまな運転目標に同時に焦点を当てることができます。
さらに、エージェントが実行可能な運転ポリシーに迅速にアプローチできるように、不確実性ベースの探索戦略が導入されています。
シミュレートされた交通環境とHighDデータセットの両方における実験結果は、私たちの方法が運転効率、行動の一貫性、安全性の観点から多目的に適合した自動運転を達成できることを実証しています。
トレーニング効率を大幅に向上させながら、運転の全般的なパフォーマンスを向上させます。
要約(オリジナル)
Reinforcement Learning (RL) has shown excellent performance in solving decision-making and control problems of autonomous driving, which is increasingly applied in diverse driving scenarios. However, driving is a multi-attribute problem, leading to challenges in achieving multi-objective compatibility for current RL methods, especially in both policy execution and policy iteration. On the one hand, the common action space structure with single action type limits driving flexibility or results in large behavior fluctuations during policy execution. On the other hand, the multi-attribute weighted single reward function result in the agent’s disproportionate attention to certain objectives during policy iterations. To this end, we propose a Multi-objective Ensemble-Critic reinforcement learning method with Hybrid Parametrized Action for multi-objective compatible autonomous driving. Specifically, a parameterized action space is constructed to generate hybrid driving actions, combining both abstract guidance and concrete control commands. A multi-objective critics architecture is constructed considering multiple attribute rewards, to ensure simultaneously focusing on different driving objectives. Additionally, uncertainty-based exploration strategy is introduced to help the agent faster approach viable driving policy. The experimental results in both the simulated traffic environment and the HighD dataset demonstrate that our method can achieve multi-objective compatible autonomous driving in terms of driving efficiency, action consistency, and safety. It enhances the general performance of the driving while significantly increasing training efficiency.
arxiv情報
著者 | Guizhe Jin,Zhuoren Li,Bo Leng,Wei Han,Lu Xiong,Chen Sun |
発行日 | 2025-01-14 13:10:13+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google