Hybrid Action Based Reinforcement Learning for Multi-Objective Compatible Autonomous Driving

要約

強化学習(RL)は、自律運転の意思決定と制御の問題を解決する上で優れたパフォーマンスを示しており、これは多様な運転シナリオにますます適用されています。
ただし、運転は多属性の問題であり、特にポリシーの実行とポリシー反復の両方において、現在のRLメソッドの多目的互換性を達成する際の課題につながります。
一方では、単一のアクションタイプを備えた共通アクション空間構造により、柔軟性を促進するか、ポリシーの実行中に大きな動作の変動をもたらします。
一方、多属性加重単一報酬関数は、ポリシーの反復中に特定の目標に対するエージェントの不均衡な注意を払うことになります。
この目的のために、多目的互換性のある自律運転のためのハイブリッドパラメーター化されたアクションを備えた多目的アンサンブル批判的な補強学習方法を提案します。
具体的には、抽象的なガイダンスとコンクリート制御コマンドの両方を組み合わせて、ハイブリッド運転アクションを生成するためにパラメーター化されたアクションスペースが構築されています。
複数の属性の報酬を考慮して、多目的批評家アーキテクチャが構築され、異なる運転目的に同時に焦点を合わせます。
さらに、不確実性に基づく探索戦略が導入され、エージェントが実行可能な運転ポリシーをより速くするのに役立ちます。
シミュレートされた交通環境とHighDデータセットの両方における実験結果は、我々の方法が運転効率、アクションの一貫性、安全性の観点から多目的互換性のある自律運転を実現できることを示しています。
運転の一般的なパフォーマンスが向上し、トレーニング効率が大幅に向上します。

要約(オリジナル)

Reinforcement Learning (RL) has shown excellent performance in solving decision-making and control problems of autonomous driving, which is increasingly applied in diverse driving scenarios. However, driving is a multi-attribute problem, leading to challenges in achieving multi-objective compatibility for current RL methods, especially in both policy execution and policy iteration. On the one hand, the common action space structure with single action type limits driving flexibility or results in large behavior fluctuations during policy execution. On the other hand, the multi-attribute weighted single reward function result in the agent’s disproportionate attention to certain objectives during policy iterations. To this end, we propose a Multi-objective Ensemble-Critic reinforcement learning method with Hybrid Parametrized Action for multi-objective compatible autonomous driving. Specifically, a parameterized action space is constructed to generate hybrid driving actions, combining both abstract guidance and concrete control commands. A multi-objective critics architecture is constructed considering multiple attribute rewards, to ensure simultaneously focusing on different driving objectives. Additionally, uncertainty-based exploration strategy is introduced to help the agent faster approach viable driving policy. The experimental results in both the simulated traffic environment and the HighD dataset demonstrate that our method can achieve multi-objective compatible autonomous driving in terms of driving efficiency, action consistency, and safety. It enhances the general performance of the driving while significantly increasing training efficiency.

arxiv情報

著者 Guizhe Jin,Zhuoren Li,Bo Leng,Wei Han,Lu Xiong,Chen Sun
発行日 2025-03-28 14:49:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.ET, cs.LG, cs.RO パーマリンク