要約
強化学習 (RL) の最近の進歩は、自動運転における大きな可能性を実証しています。
この約束にもかかわらず、報酬関数の手動設計や複雑な環境におけるサンプル効率の低さなどの課題が、安全で効果的な運転政策の開発を妨げ続けています。
これらの問題に取り組むために、都市部の運転に合わせた革新的な自動ポリシー学習ワークフローである LearningFlow を導入します。
このフレームワークは、RL トレーニング プロセス全体を通じて複数の大規模言語モデル (LLM) エージェントのコラボレーションを活用します。
LearningFlow には、カリキュラム シーケンス生成プロセスと報酬生成プロセスが含まれており、これらは連携して機能し、カスタマイズされたトレーニング カリキュラムと報酬関数を生成することで RL ポリシーを導きます。
特に、各プロセスは、トレーニングの進行状況を評価し、生成エージェントに重要な洞察を提供する分析エージェントによってサポートされます。
これらの LLM エージェントの共同作業を通じて、LearningFlow は一連の複雑な運転タスクにわたるポリシー学習を自動化し、サンプル効率を向上させながら手動の報酬関数設計への依存を大幅に削減します。
提案されたアプローチの有効性を実証するために、他の既存の方法との比較とともに、高忠実度 CARLA シミュレーターで包括的な実験が実行されます。
この結果は、LearningFlow が報酬とカリキュラムの生成において優れていることを示しています。
また、さまざまな運転タスクにわたって優れたパフォーマンスと堅牢な汎用化を達成するだけでなく、さまざまな RL アルゴリズムへの優れた適応も実現します。
要約(オリジナル)
Recent advancements in reinforcement learning (RL) demonstrate the significant potential in autonomous driving. Despite this promise, challenges such as the manual design of reward functions and low sample efficiency in complex environments continue to impede the development of safe and effective driving policies. To tackle these issues, we introduce LearningFlow, an innovative automated policy learning workflow tailored to urban driving. This framework leverages the collaboration of multiple large language model (LLM) agents throughout the RL training process. LearningFlow includes a curriculum sequence generation process and a reward generation process, which work in tandem to guide the RL policy by generating tailored training curricula and reward functions. Particularly, each process is supported by an analysis agent that evaluates training progress and provides critical insights to the generation agent. Through the collaborative efforts of these LLM agents, LearningFlow automates policy learning across a series of complex driving tasks, and it significantly reduces the reliance on manual reward function design while enhancing sample efficiency. Comprehensive experiments are conducted in the high-fidelity CARLA simulator, along with comparisons with other existing methods, to demonstrate the efficacy of our proposed approach. The results demonstrate that LearningFlow excels in generating rewards and curricula. It also achieves superior performance and robust generalization across various driving tasks, as well as commendable adaptation to different RL algorithms.
arxiv情報
著者 | Zengqi Peng,Yubin Wang,Xu Han,Lei Zheng,Jun Ma |
発行日 | 2025-01-09 08:28:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google