VLM-Auto: VLM-based Autonomous Driving Assistant with Human-like Behavior and Understanding for Complex Road Scenes

要約

自動運転用の大規模言語モデルに関する最近の研究では、計画と制御における有望性が示されています。
しかし、高い計算要求と幻覚により、正確な軌道予測と制御信号生成は依然として課題となっています。
決定論的アルゴリズムは信頼性を提供しますが、複雑な運転シナリオへの適応性に欠け、状況や不確実性と格闘します。
この問題に対処するために、私たちは、道路状況の理解に基づいて自動運転車両に調整可能な運転動作を提供する、新しい自動運転支援システムである VLM-Auto を提案します。
CARLA シミュレーターとロボット オペレーティング システム 2 (ROS2) を含むパイプラインが示され、システムの有効性を検証します。これは、単一の Nvidia 4090 24G GPU を利用しながら、ビジュアル言語モデル (VLM) のテキスト出力の容量を活用します。
さらに、システムの VLM モジュールを微調整するための画像セットと対応するプロンプト セットを含むデータセットも提供します。
CARLA 実験では、システムはデータセット内の 5 種類のラベルで $97.82\%$ の平均精度を達成しました。
現実世界の運転データセットでは、当社のシステムは夜景や薄暗い場面で $96.97\%$ の予測精度を達成しました。
VLM-Auto データセットは https://github.com/ZionGo6/VLM-Auto でリリースされます。

要約(オリジナル)

Recent research on Large Language Models for autonomous driving shows promise in planning and control. However, high computational demands and hallucinations still challenge accurate trajectory prediction and control signal generation. Deterministic algorithms offer reliability but lack adaptability to complex driving scenarios and struggle with context and uncertainty. To address this problem, we propose VLM-Auto, a novel autonomous driving assistant system to empower the autonomous vehicles with adjustable driving behaviors based on the understanding of road scenes. A pipeline involving the CARLA simulator and Robot Operating System 2 (ROS2) verifying the effectiveness of our system is presented, utilizing a single Nvidia 4090 24G GPU while exploiting the capacity of textual output of the Visual Language Model (VLM). Besides, we also contribute a dataset containing an image set and a corresponding prompt set for fine-tuning the VLM module of our system. In CARLA experiments, our system achieved $97.82\%$ average precision on 5 types of labels in our dataset. In the real-world driving dataset, our system achieved $96.97\%$ prediction accuracy in night scenes and gloomy scenes. Our VLM-Auto dataset will be released at https://github.com/ZionGo6/VLM-Auto.

arxiv情報

著者 Ziang Guo,Zakhar Yagudin,Artem Lykov,Mikhail Konenkov,Dzmitry Tsetserukou
発行日 2024-10-02 13:46:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク