Language-Driven Policy Distillation for Cooperative Driving in Multi-Agent Reinforcement Learning

要約

コネクテッド自動運転車 (CAV) の協調運転技術は、交通システムの効率と安全性を向上させるために不可欠です。
マルチエージェント強化学習 (MARL) などの学習ベースの手法は、協調的な意思決定タスクにおいて強力な機能を実証しています。
ただし、既存の MARL アプローチは、学習効率とパフォーマンスの点で依然として課題に直面しています。
近年、大規模言語モデル (LLM) は急速に進歩し、さまざまな連続的な意思決定タスクにおいて顕著な能力を示しています。
意思決定の効率性と費用対効果を確保しながら、協力エージェントの学習能力を強化するために、MARL 探索をガイドするための言語駆動型のポリシー蒸留手法である LCDD を提案します。
このフレームワークでは、LLM に基づく教師エージェントが、独自の意思決定デモンストレーションを通じて、協力的な意思決定を達成するために小規模な学生エージェントを訓練します。
教師エージェントは、CAV の観察情報を強化し、LLM を利用して複雑な協力的な意思決定推論を実行します。また、慎重に設計された意思決定ツールを活用して専門家レベルの意思決定を実現し、高品質の教育エクスペリエンスを提供します。
次に、学生エージェントは、勾配ポリシーの更新を通じて教師の事前知識を独自のモデルに改良します。
この実験は、教師からの最小限の指導で生徒が急速に能力を向上させ、最終的には教師の成績を上回ることができることを示しています。
広範な実験により、私たちのアプローチはベースラインの方法と比較して優れたパフォーマンスと学習効率を実証していることが示されています。

要約(オリジナル)

The cooperative driving technology of Connected and Autonomous Vehicles (CAVs) is crucial for improving the efficiency and safety of transportation systems. Learning-based methods, such as Multi-Agent Reinforcement Learning (MARL), have demonstrated strong capabilities in cooperative decision-making tasks. However, existing MARL approaches still face challenges in terms of learning efficiency and performance. In recent years, Large Language Models (LLMs) have rapidly advanced and shown remarkable abilities in various sequential decision-making tasks. To enhance the learning capabilities of cooperative agents while ensuring decision-making efficiency and cost-effectiveness, we propose LDPD, a language-driven policy distillation method for guiding MARL exploration. In this framework, a teacher agent based on LLM trains smaller student agents to achieve cooperative decision-making through its own decision-making demonstrations. The teacher agent enhances the observation information of CAVs and utilizes LLMs to perform complex cooperative decision-making reasoning, which also leverages carefully designed decision-making tools to achieve expert-level decisions, providing high-quality teaching experiences. The student agent then refines the teacher’s prior knowledge into its own model through gradient policy updates. The experiments demonstrate that the students can rapidly improve their capabilities with minimal guidance from the teacher and eventually surpass the teacher’s performance. Extensive experiments show that our approach demonstrates better performance and learning efficiency compared to baseline methods.

arxiv情報

著者 Jiaqi Liu,Chengkai Xu,Peng Hang,Jian Sun,Mingyu Ding,Wei Zhan,Masayoshi Tomizuka
発行日 2024-10-31 17:10:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク