CarLLaVA: Vision language models for camera-only closed-loop driving

要約

この技術レポートでは、CARLA 自動運転チャレンジ 2.0 のために開発された自動運転用ビジョン言語モデル (VLM) である CarLLaVA を紹介します。
CarLLaVA は、LLaVA VLM のビジョン エンコーダと LLaMA アーキテクチャをバックボーンとして使用し、複雑または高価なラベルを必要とせず、カメラ入力のみで最先端の閉ループ駆動パフォーマンスを実現します。
さらに、運転出力とともに言語解説の予測に関する予備結果を示します。
CarLLaVA は、経路予測とウェイポイントの両方の半分解絡された出力表現を使用し、より優れた横方向制御のためのパスとより優れた縦方向制御のためのウェイポイントの利点を取得します。
私たちは、簡単で些細なデータで計算を無駄にすることなく、大規模な運転データセットでトレーニングするための効率的なトレーニング レシピを提案します。
CarLLaVA は、CARLA 自動運転チャレンジ 2.0 のセンサー トラックで 1 位にランクされ、以前の最先端技術を 458% 上回り、同時提出の最高成績を 32.6% 上回りました。

要約(オリジナル)

In this technical report, we present CarLLaVA, a Vision Language Model (VLM) for autonomous driving, developed for the CARLA Autonomous Driving Challenge 2.0. CarLLaVA uses the vision encoder of the LLaVA VLM and the LLaMA architecture as backbone, achieving state-of-the-art closed-loop driving performance with only camera input and without the need for complex or expensive labels. Additionally, we show preliminary results on predicting language commentary alongside the driving output. CarLLaVA uses a semi-disentangled output representation of both path predictions and waypoints, getting the advantages of the path for better lateral control and the waypoints for better longitudinal control. We propose an efficient training recipe to train on large driving datasets without wasting compute on easy, trivial data. CarLLaVA ranks 1st place in the sensor track of the CARLA Autonomous Driving Challenge 2.0 outperforming the previous state of the art by 458% and the best concurrent submission by 32.6%.

arxiv情報

著者 Katrin Renz,Long Chen,Ana-Maria Marcu,Jan Hünermann,Benoit Hanotte,Alice Karnsund,Jamie Shotton,Elahe Arani,Oleg Sinavski
発行日 2024-06-14 16:35:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク