Language Prompt for Autonomous Driving

要約

コンピューター ビジョン コミュニティの新しいトレンドは、自然言語プロンプトによって表される柔軟な人間のコマンドに従って対象オブジェクトをキャプチャすることです。
ただし、プロンプト インスタンスのペア データが不足しているため、運転シナリオでの言語プロンプトの使用の進捗はボトルネックに陥っています。
この課題に対処するために、NuPrompt という名前の、3D、マルチビュー、マルチフレーム空間内のシーンを運転するための最初のオブジェクト中心の言語プロンプト セットを提案します。
合計 35,367 の言語記述を構築することで Nuscenes データセットを拡張し、それぞれが平均 5.3 のオブジェクト トラックを参照します。
新しいベンチマークからのオブジェクトとテキストのペアに基づいて、新しいプロンプトベースの運転タスクを定式化します。つまり、言語プロンプトを使用して、ビューとフレーム全体で記述されたオブジェクトの軌道を予測します。
さらに、PromptTrack という名前の、Transformer に基づくシンプルなエンドツーエンドのベースライン モデルを提供します。
実験では、PromptTrack が NuPrompt 上で優れたパフォーマンスを達成することが示されています。
私たちは、この研究が自動運転コミュニティにさらに新しい洞察を提供できることを願っています。
データセットとコードは \href{https://github.com/wudongming97/Prompt4Driving}{https://github.com/wudongming97/Prompt4Driving} で公開されます。

要約(オリジナル)

A new trend in the computer vision community is to capture objects of interest following flexible human command represented by a natural language prompt. However, the progress of using language prompts in driving scenarios is stuck in a bottleneck due to the scarcity of paired prompt-instance data. To address this challenge, we propose the first object-centric language prompt set for driving scenes within 3D, multi-view, and multi-frame space, named NuPrompt. It expands Nuscenes dataset by constructing a total of 35,367 language descriptions, each referring to an average of 5.3 object tracks. Based on the object-text pairs from the new benchmark, we formulate a new prompt-based driving task, \ie, employing a language prompt to predict the described object trajectory across views and frames. Furthermore, we provide a simple end-to-end baseline model based on Transformer, named PromptTrack. Experiments show that our PromptTrack achieves impressive performance on NuPrompt. We hope this work can provide more new insights for the autonomous driving community. Dataset and Code will be made public at \href{https://github.com/wudongming97/Prompt4Driving}{https://github.com/wudongming97/Prompt4Driving}.

arxiv情報

著者 Dongming Wu,Wencheng Han,Tiancai Wang,Yingfei Liu,Xiangyu Zhang,Jianbing Shen
発行日 2023-09-08 15:21:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク