要約
この研究は、大規模言語モデル (LLM) の文脈推論機能を活用することで、自動運転 (AD) における状況認識を強化するという重要なニーズに取り組んでいます。
厳格なラベルベースの注釈に依存する従来の認識システムとは異なり、リアルタイムのマルチモーダル センサー データを統合された LLM が読み取り可能な知識ベースに統合し、LLM が複雑な運転環境を動的に理解して対応できるようにします。
LLM に固有のレイテンシとモダリティの制限を克服するために、プロアクティブな検索拡張生成 (RAG) が AD 向けに設計されており、思考連鎖を促すメカニズムと組み合わせて、迅速でコンテキストに富んだ理解を保証します。
現実世界のVehicle-to-everything(V2X)データセットを使用した実験結果は、認識と予測のパフォーマンスが大幅に向上していることを実証し、次世代のADシステムにおける安全性、適応性、意思決定を強化するこのフレームワークの可能性を強調しています。
要約(オリジナル)
This study addresses the critical need for enhanced situational awareness in autonomous driving (AD) by leveraging the contextual reasoning capabilities of large language models (LLMs). Unlike traditional perception systems that rely on rigid, label-based annotations, it integrates real-time, multimodal sensor data into a unified, LLMs-readable knowledge base, enabling LLMs to dynamically understand and respond to complex driving environments. To overcome the inherent latency and modality limitations of LLMs, a proactive Retrieval-Augmented Generation (RAG) is designed for AD, combined with a chain-of-thought prompting mechanism, ensuring rapid and context-rich understanding. Experimental results using real-world Vehicle-to-everything (V2X) datasets demonstrate significant improvements in perception and prediction performance, highlighting the potential of this framework to enhance safety, adaptability, and decision-making in next-generation AD systems.
arxiv情報
著者 | Xuewen Luo,Fan Ding,Fengze Yang,Yang Zhou,Junnyong Loo,Hwa Hui Tew,Chenxi Liu |
発行日 | 2025-01-07 05:15:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google