HCRMP: A LLM-Hinted Contextual Reinforcement Learning Framework for Autonomous Driving

要約

大規模な言語モデル(LLMS)と強化学習(RL)を統合すると、複雑なシナリオで自律運転(AD)パフォーマンスを向上させることができます。
ただし、現在のLLMが支配しているRLメソッドは、LLM出力を超えています。
評価によると、最先端のLLMは、必須の運転関連タスクで評価された場合、約57.95%のみの非ホリューチン剤率を示していることが示されています。
したがって、これらの方法では、LLMからの幻覚は、運転政策のパフォーマンスを直接危険にさらす可能性があります。
この論文は、LLMとRLの間の相対的な独立性を維持することが幻覚の問題を解決するために不可欠であると主張しています。
その結果、この論文は、新しいLLMヒントRLパラダイムを提案することに専念しています。
LLMは、RLエージェントがモーションプランニングにおいてRLエージェントを支援するために、州の増強とポリシーの最適化のセマンティックヒントを生成するために使用されますが、RLエージェントは、優れた運転性能を達成するためのポリシー学習を通じて潜在的な誤ったセマンティック表示に対抗します。
このパラダイムに基づいて、HCRMP(LLMヒントのコンテキスト強化学習モーションプランナー)アーキテクチャを提案します。
コンテキスト安定性アンカーモジュールは、知識ベースからの情報を利用することにより、多粘膜重量ヒントの信頼性を高めます。
セマンティックキャッシュモジュールは、LLM低周波ガイダンスをRL高周波制御とシームレスに統合するために採用されています。
Carlaでの広範な実験は、HCRMPの全体的な運転パフォーマンスの強力なものを検証します。
HCRMPは、さまざまな交通密度の多様な運転条件で最大80.3%のタスク成功率を達成します。
安全性が批判的な駆動条件下では、HCRMPは衝突率を11.4%大幅に削減し、複雑なシナリオでの運転性能を効果的に改善します。

要約(オリジナル)

Integrating Large Language Models (LLMs) with Reinforcement Learning (RL) can enhance autonomous driving (AD) performance in complex scenarios. However, current LLM-Dominated RL methods over-rely on LLM outputs, which are prone to hallucinations. Evaluations show that state-of-the-art LLM indicates a non-hallucination rate of only approximately 57.95% when assessed on essential driving-related tasks. Thus, in these methods, hallucinations from the LLM can directly jeopardize the performance of driving policies. This paper argues that maintaining relative independence between the LLM and the RL is vital for solving the hallucinations problem. Consequently, this paper is devoted to propose a novel LLM-Hinted RL paradigm. The LLM is used to generate semantic hints for state augmentation and policy optimization to assist RL agent in motion planning, while the RL agent counteracts potential erroneous semantic indications through policy learning to achieve excellent driving performance. Based on this paradigm, we propose the HCRMP (LLM-Hinted Contextual Reinforcement Learning Motion Planner) architecture, which is designed that includes Augmented Semantic Representation Module to extend state space. Contextual Stability Anchor Module enhances the reliability of multi-critic weight hints by utilizing information from the knowledge base. Semantic Cache Module is employed to seamlessly integrate LLM low-frequency guidance with RL high-frequency control. Extensive experiments in CARLA validate HCRMP’s strong overall driving performance. HCRMP achieves a task success rate of up to 80.3% under diverse driving conditions with different traffic densities. Under safety-critical driving conditions, HCRMP significantly reduces the collision rate by 11.4%, which effectively improves the driving performance in complex scenarios.

arxiv情報

著者 Zhiwen Chen,Bo Leng,Zhuoren Li,Hanming Deng,Guizhe Jin,Ran Yu,Huanxi Wen
発行日 2025-05-22 04:48:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.RO パーマリンク