要約
大規模な言語モデル(LLM)を自律運転に統合することは、一般化と説明可能性を改善することを期待して、大きな注目を集めています。
ただし、既存の方法では、運転または視覚言語の理解のいずれかに焦点を当てていることがよくありますが、高い運転性能と広範な言語理解の両方を達成することは依然として困難です。
さらに、ビジョン言語の理解に取り組むための支配的なアプローチは、視覚的な質問応答を使用することです。
ただし、自律運転の場合、これはアクション空間と一致する場合にのみ便利です。
それ以外の場合、モデルの回答はその動作と矛盾する可能性があります。
したがって、3つの異なるタスクを処理できるモデルを提案します:(1)閉ループ運転、(2)視覚言語の理解、および(3)言語アクションアライメント。
私たちのモデルSimlingoは、Vision言語モデル(VLM)に基づいており、Lidarのような高価なセンサーを除くカメラのみを使用して動作します。
Simlingoは、Bench2Driveベンチマークで広く使用されているCarlaシミュレーターで最先端のパフォーマンスを取得し、Carla Challenge 2024での優勝エントリです。さらに、高運転性のパフォーマンスを維持しながら、さまざまな言語関連のタスクで強力な結果を得ています。
要約(オリジナル)
Integrating large language models (LLMs) into autonomous driving has attracted significant attention with the hope of improving generalization and explainability. However, existing methods often focus on either driving or vision-language understanding but achieving both high driving performance and extensive language understanding remains challenging. In addition, the dominant approach to tackle vision-language understanding is using visual question answering. However, for autonomous driving, this is only useful if it is aligned with the action space. Otherwise, the model’s answers could be inconsistent with its behavior. Therefore, we propose a model that can handle three different tasks: (1) closed-loop driving, (2) vision-language understanding, and (3) language-action alignment. Our model SimLingo is based on a vision language model (VLM) and works using only camera, excluding expensive sensors like LiDAR. SimLingo obtains state-of-the-art performance on the widely used CARLA simulator on the Bench2Drive benchmark and is the winning entry at the CARLA challenge 2024. Additionally, we achieve strong results in a wide variety of language-related tasks while maintaining high driving performance.
arxiv情報
著者 | Katrin Renz,Long Chen,Elahe Arani,Oleg Sinavski |
発行日 | 2025-03-12 17:58:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google