要約
Talk2BEV は、自動運転コンテキストにおける鳥瞰図 (BEV) マップ用のラージ ビジョン言語モデル (LVLM) インターフェイスです。
自動運転シナリオ用の既存の認識システムは主に、事前定義された (閉じた) オブジェクト カテゴリと運転シナリオのセットに焦点を当ててきましたが、Talk2BEV は汎用言語および視覚モデルの最近の進歩と BEV 構造化地図表現を融合し、
タスク固有のモデル。
これにより、視覚的および空間的推論、交通行為者の意図の予測、視覚的合図に基づく意思決定を含む、さまざまな自動運転タスクに単一のシステムで対応できるようになります。
私たちは、自由形式の自然言語クエリを解釈する能力と、これらのクエリを言語拡張 BEV マップに埋め込まれたビジュアル コンテキストに根付かせる能力の両方に依存する、多数のシーン理解タスクで Talk2BEV を広範囲に評価しています。
自動運転シナリオ向けの LVLM のさらなる研究を可能にするために、NuScenes データセットからの 20,000 を超える質問とグラウンドトゥルースの回答を備えた 1,000 の人間による注釈付き BEV シナリオを網羅するベンチマークである Talk2BEV-Bench を開発してリリースしました。
要約(オリジナル)
Talk2BEV is a large vision-language model (LVLM) interface for bird’s-eye view (BEV) maps in autonomous driving contexts. While existing perception systems for autonomous driving scenarios have largely focused on a pre-defined (closed) set of object categories and driving scenarios, Talk2BEV blends recent advances in general-purpose language and vision models with BEV-structured map representations, eliminating the need for task-specific models. This enables a single system to cater to a variety of autonomous driving tasks encompassing visual and spatial reasoning, predicting the intents of traffic actors, and decision-making based on visual cues. We extensively evaluate Talk2BEV on a large number of scene understanding tasks that rely on both the ability to interpret free-form natural language queries, and in grounding these queries to the visual context embedded into the language-enhanced BEV map. To enable further research in LVLMs for autonomous driving scenarios, we develop and release Talk2BEV-Bench, a benchmark encompassing 1000 human-annotated BEV scenarios, with more than 20,000 questions and ground-truth responses from the NuScenes dataset.
arxiv情報
著者 | Tushar Choudhary,Vikrant Dewangan,Shivam Chandhok,Shubham Priyadarshan,Anushka Jain,Arun K. Singh,Siddharth Srivastava,Krishna Murthy Jatavallabhula,K. Madhava Krishna |
発行日 | 2023-11-14 14:46:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google