Talk2BEV: Language-enhanced Bird’s-eye View Maps for Autonomous Driving

要約

Talk2BEVは、自律走行の文脈における鳥瞰図(BEV)マップのための大規模視覚言語モデル(LVLM)インターフェースである。自律走行シナリオのための既存の知覚システムは、事前に定義された(閉じた)オブジェクトカテゴリと走行シナリオのセットに主に焦点を当ててきたが、Talk2BEVは、汎用言語モデルと視覚モデルの最近の進歩をBEV構造化マップ表現と融合させ、タスク固有のモデルを不要にする。これにより、視覚的・空間的推論、交通行為者の意図の予測、視覚的手がかりに基づく意思決定を含む様々な自律走行タスクに単一のシステムで対応することが可能となる。我々は、自由形式の自然言語クエリを解釈する能力と、これらのクエリを言語強化BEVマップに埋め込まれた視覚的コンテキストに基づかせる能力の両方に依存する多数のシーン理解タスクについて、Talk2BEVを広範に評価する。自律走行シナリオのためのLVLMのさらなる研究を可能にするために、我々はTalk2BEV-Benchを開発し、NuScenesデータセットから20,000以上の質問と地上真正回答を含む、1000の人間注釈付きBEVシナリオを含むベンチマークをリリースする。

要約(オリジナル)

Talk2BEV is a large vision-language model (LVLM) interface for bird’s-eye view (BEV) maps in autonomous driving contexts. While existing perception systems for autonomous driving scenarios have largely focused on a pre-defined (closed) set of object categories and driving scenarios, Talk2BEV blends recent advances in general-purpose language and vision models with BEV-structured map representations, eliminating the need for task-specific models. This enables a single system to cater to a variety of autonomous driving tasks encompassing visual and spatial reasoning, predicting the intents of traffic actors, and decision-making based on visual cues. We extensively evaluate Talk2BEV on a large number of scene understanding tasks that rely on both the ability to interpret free-form natural language queries, and in grounding these queries to the visual context embedded into the language-enhanced BEV map. To enable further research in LVLMs for autonomous driving scenarios, we develop and release Talk2BEV-Bench, a benchmark encompassing 1000 human-annotated BEV scenarios, with more than 20,000 questions and ground-truth responses from the NuScenes dataset.

arxiv情報

著者 Vikrant Dewangan,Tushar Choudhary,Shivam Chandhok,Shubham Priyadarshan,Anushka Jain,Arun K. Singh,Siddharth Srivastava,Krishna Murthy Jatavallabhula,K. Madhava Krishna
発行日 2023-10-03 17:53:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.RO パーマリンク