VLM-RL: A Unified Vision Language Models and Reinforcement Learning Framework for Safe Autonomous Driving

要約

近年、運転ポリシーを学習するための強化学習 (RL) ベースの方法が自動運転コミュニティでますます注目を集めており、さまざまな運転シナリオで目覚ましい進歩を遂げています。
ただし、従来の RL アプローチは手動で設計された報酬に依存しており、これには多大な人間の労力が必要であり、多くの場合一般化可能性に欠けています。
これらの制限に対処するために、事前トレーニングされた視覚言語モデル (VLM) と RL を統合し、画像観察と自然言語の目標を使用して報酬信号を生成する統合フレームワークである \textbf{VLM-RL} を提案します。
VLM-RL の中核は、報酬としての対照的言語目標 (CLG) パラダイムであり、肯定的な言語目標と否定的な言語目標を使用して意味論的な報酬を生成します。
さらに、CLG ベースのセマンティック報酬と車両状態情報を組み合わせた階層型報酬合成アプローチを導入し、報酬の安定性を向上させ、より包括的な報酬信号を提供します。
さらに、トレーニング中の計算効率を最適化するためにバッチ処理技術が採用されています。
CARLA シミュレータでの広範な実験により、VLM-RL が最先端のベースラインを上回っており、衝突率の 10.5% 削減、ルート完了率の 104.6% 増加、およびまだ見たことのない運転シナリオへの強力な一般化を達成していることが実証されています。
さらに、VLM-RL は、ほぼすべての標準的な RL アルゴリズムをシームレスに統合でき、手動の報酬エンジニアリングに依存する既存の RL パラダイムに革命を起こし、継続的なパフォーマンスの向上を可能にする可能性があります。
デモ ビデオとコードには、https://zilin-huang.github.io/VLM-RL-website からアクセスできます。

要約(オリジナル)

In recent years, reinforcement learning (RL)-based methods for learning driving policies have gained increasing attention in the autonomous driving community and have achieved remarkable progress in various driving scenarios. However, traditional RL approaches rely on manually engineered rewards, which require extensive human effort and often lack generalizability. To address these limitations, we propose \textbf{VLM-RL}, a unified framework that integrates pre-trained Vision-Language Models (VLMs) with RL to generate reward signals using image observation and natural language goals. The core of VLM-RL is the contrasting language goal (CLG)-as-reward paradigm, which uses positive and negative language goals to generate semantic rewards. We further introduce a hierarchical reward synthesis approach that combines CLG-based semantic rewards with vehicle state information, improving reward stability and offering a more comprehensive reward signal. Additionally, a batch-processing technique is employed to optimize computational efficiency during training. Extensive experiments in the CARLA simulator demonstrate that VLM-RL outperforms state-of-the-art baselines, achieving a 10.5\% reduction in collision rate, a 104.6\% increase in route completion rate, and robust generalization to unseen driving scenarios. Furthermore, VLM-RL can seamlessly integrate almost any standard RL algorithms, potentially revolutionizing the existing RL paradigm that relies on manual reward engineering and enabling continuous performance improvements. The demo video and code can be accessed at: https://zilin-huang.github.io/VLM-RL-website.

arxiv情報

著者 Zilin Huang,Zihao Sheng,Yansong Qu,Junwei You,Sikai Chen
発行日 2024-12-20 04:08:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク