VL-SAFE: Vision-Language Guided Safety-Aware Reinforcement Learning with World Models for Autonomous Driving

要約

強化学習(RL)ベースの自律運転政策学習は、サンプル効率の低さや一般化の低下などの重大な制限に直面しています。
オンラインのやり取りと試行錯誤の学習への依存は、安全性の高いシナリオでは特に受け入れられません。
SAFE RLを含む既存の方法は、複雑な運転コンテキストで「安全性」の真の意味的な意味をキャプチャできず、過度に保守的な運転行動または制約違反のいずれかにつながります。
これらの課題に対処するために、オフラインの安全なポリシー学習用に設計された、視覚言語モデル(VLM) – 安全測定パラダイムとしてのVision-Language Model(VLM)を備えた世界モデルベースの安全なRLフレームワークであるVL-Safeを提案します。
具体的には、エキスパートエージェントによって収集され、VLMSから派生した安全スコアでラベル付けされたデータを含むオフラインデータセットを構築します。
世界モデルは、想像上のロールアウトを安全性の推定で生成するように訓練されており、エージェントが実際の環境と対話せずに安全な計画を実行できるようにします。
これらの想像上の軌跡と安全評価に基づいて、俳優と批判の学習は、運転ポリシーをより安全かつ効率的に最適化するために、VLMベースの安全ガイダンスの下で実施されます。
広範な評価は、VLセーフが既存のベースラインと比較して優れたサンプル効率、一般化、安全性、および全体的なパフォーマンスを達成することを示しています。
私たちの知る限り、これは安全な自律運転のためのVLM誘導世界モデルベースのアプローチを導入する最初の作品です。
デモビデオとコードには、https://ys-qu.github.io/vlsafe-website/でアクセスできます。

要約(オリジナル)

Reinforcement learning (RL)-based autonomous driving policy learning faces critical limitations such as low sample efficiency and poor generalization; its reliance on online interactions and trial-and-error learning is especially unacceptable in safety-critical scenarios. Existing methods including safe RL often fail to capture the true semantic meaning of ‘safety’ in complex driving contexts, leading to either overly conservative driving behavior or constraint violations. To address these challenges, we propose VL-SAFE, a world model-based safe RL framework with Vision-Language model (VLM)-as-safety-guidance paradigm, designed for offline safe policy learning. Specifically, we construct offline datasets containing data collected by expert agents and labeled with safety scores derived from VLMs. A world model is trained to generate imagined rollouts together with safety estimations, allowing the agent to perform safe planning without interacting with the real environment. Based on these imagined trajectories and safety evaluations, actor-critic learning is conducted under VLM-based safety guidance to optimize the driving policy more safely and efficiently. Extensive evaluations demonstrate that VL-SAFE achieves superior sample efficiency, generalization, safety, and overall performance compared to existing baselines. To the best of our knowledge, this is the first work that introduces a VLM-guided world model-based approach for safe autonomous driving. The demo video and code can be accessed at: https://ys-qu.github.io/vlsafe-website/

arxiv情報

著者 Yansong Qu,Zilin Huang,Zihao Sheng,Jiancong Chen,Sikai Chen,Samuel Labi
発行日 2025-05-22 08:29:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク