Large Language Model guided Deep Reinforcement Learning for Decision Making in Autonomous Driving

要約

深層強化学習 (DRL) は、自動運転の意思決定に有望な可能性を示しています。
ただし、DRL は学習効率が低いため、複雑な運転シナリオで適切なポリシーを達成するには大量の計算リソースを必要とします。
さらに、人間による専門家の指導を活用して DRL のパフォーマンスを向上させると、法外に高い人件費が発生し、実用化が制限されます。
この研究では、自動運転車の意思決定問題に対処するための新しい大規模言語モデル (LLM) 誘導深層強化学習 (LGDRL) フレームワークを提案します。
このフレームワーク内では、LLM ベースの運転専門家が DRL に統合され、DRL の学習プロセスにインテリジェントなガイダンスを提供します。
その後、LLM 専門家のガイダンスを効率的に利用して DRL 意思決定ポリシーのパフォーマンスを向上させるために、DRL の学習および対話プロセスが、革新的な専門家ポリシー制約アルゴリズムと新しい LLM 介在対話メカニズムを通じて強化されます。
実験結果は、私たちの方法が 90% のタスク成功率で優れた運転パフォーマンスを達成するだけでなく、最先端のベースライン アルゴリズムと比較して学習効率とエキスパート ガイダンスの利用効率も大幅に向上することを示しています。
さらに、提案された方法により、LLM 専門家の指導がない場合でも、DRL エージェントは一貫した信頼性の高いパフォーマンスを維持できます。
コードと補足ビデオは https://bitmobile.github.io/LGDRL/ で入手できます。

要約(オリジナル)

Deep reinforcement learning (DRL) shows promising potential for autonomous driving decision-making. However, DRL demands extensive computational resources to achieve a qualified policy in complex driving scenarios due to its low learning efficiency. Moreover, leveraging expert guidance from human to enhance DRL performance incurs prohibitively high labor costs, which limits its practical application. In this study, we propose a novel large language model (LLM) guided deep reinforcement learning (LGDRL) framework for addressing the decision-making problem of autonomous vehicles. Within this framework, an LLM-based driving expert is integrated into the DRL to provide intelligent guidance for the learning process of DRL. Subsequently, in order to efficiently utilize the guidance of the LLM expert to enhance the performance of DRL decision-making policies, the learning and interaction process of DRL is enhanced through an innovative expert policy constrained algorithm and a novel LLM-intervened interaction mechanism. Experimental results demonstrate that our method not only achieves superior driving performance with a 90\% task success rate but also significantly improves the learning efficiency and expert guidance utilization efficiency compared to state-of-the-art baseline algorithms. Moreover, the proposed method enables the DRL agent to maintain consistent and reliable performance in the absence of LLM expert guidance. The code and supplementary videos are available at https://bitmobility.github.io/LGDRL/.

arxiv情報

著者 Hao Pang,Zhenpo Wang,Guoqiang Li
発行日 2024-12-24 15:50:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク