SafeAuto: Knowledge-Enhanced Safe Autonomous Driving with Multimodal Foundation Models

要約

従来の自律駆動システムは、高レベルの推論を低レベルの制御と結びつけるのに苦労しており、最適ではない場合があり、時には安全でない行動につながります。
視覚データとテキストデータの両方を処理するマルチモーダルラージランゲージモデル(MLLMS)の最近の進歩は、認識と推論を統一する機会を提供します。
ただし、自律運転のために正確な安全知識をMLLMに埋め込むことは効果的に依然として重要な課題です。
これに対処するために、非構造化と構造化された知識の両方を組み込むことにより、MLLMベースの自律運転を強化するフレームワークであるSafeautoを提案します。
最初に、値がテキストとして表されている場合、低レベルの制御信号予測を改善するために、位置依存性交差点(PDCE)損失を導入します。
第二に、安全知識を明示的に統合するために、トラフィックルールを1次ロジックに変換する推論コンポーネントを開発し(例えば、「赤色光$ \は$ stop」)、それらを確率的グラフィカルモデル(例:Markov Logic Network)に埋め込み、認識された環境属性を使用して予測されるアクションを確認します。
さらに、過去の運転経験から学ぶために、マルチモーダル検索の高度発電(RAG)モデルはビデオ、制御信号、環境属性を活用しています。
PDCE、MLN、およびマルチモーダルRAGを統合すると、SAFEAUTOは複数のデータセットで既存のベースラインを上回り、より正確で信頼性が高く、より安全な自律運転を可能にします。
このコードは、https://github.com/ai-secure/safeautoで入手できます。

要約(オリジナル)

Traditional autonomous driving systems often struggle to connect high-level reasoning with low-level control, leading to suboptimal and sometimes unsafe behaviors. Recent advances in multimodal large language models (MLLMs), which process both visual and textual data, offer an opportunity to unify perception and reasoning. However, effectively embedding precise safety knowledge into MLLMs for autonomous driving remains a significant challenge. To address this, we propose SafeAuto, a framework that enhances MLLM-based autonomous driving by incorporating both unstructured and structured knowledge. First, we introduce a Position-Dependent Cross-Entropy (PDCE) loss to improve low-level control signal predictions when values are represented as text. Second, to explicitly integrate safety knowledge, we develop a reasoning component that translates traffic rules into first-order logic (e.g., ‘red light $\implies$ stop’) and embeds them into a probabilistic graphical model (e.g., Markov Logic Network) to verify predicted actions using recognized environmental attributes. Additionally, our Multimodal Retrieval-Augmented Generation (RAG) model leverages video, control signals, and environmental attributes to learn from past driving experiences. Integrating PDCE, MLN, and Multimodal RAG, SafeAuto outperforms existing baselines across multiple datasets, enabling more accurate, reliable, and safer autonomous driving. The code is available at https://github.com/AI-secure/SafeAuto.

arxiv情報

著者 Jiawei Zhang,Xuan Yang,Taiqi Wang,Yu Yao,Aleksandr Petiushko,Bo Li
発行日 2025-06-06 10:09:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, cs.RO, cs.SY, eess.SY パーマリンク