要約
自律運転のビジョン言語アクション(VLA)モデルは、主にターゲットベンチマークが不足しているため、構造化されていないコーナーケースのシナリオでの可能性を示しています。
これに対処するために、即興VLAを紹介します。
私たちの中核的な貢献は、即興VLAデータセットです。80,000を超える綿密にキュレーションされたビデオクリップは、8つのオープンソースの大規模データセットから供給された2mを超えるソースクリップから蒸留されています。
このデータセットは、4つの挑戦的な非構造化されたカテゴリと、豊かで計画指向の質問アノテーションとアクションの軌跡を特徴とする私たちの新しい分類法に基づいて構築されています。
重要なことに、実験は、データセットで訓練されたVLAが確立されたベンチマークでかなりのパフォーマンスの向上を達成することを示しています。これは、閉ループのニューロランキャップスコアと衝突率を向上させ、オープンループヌーセンの軌道予測における最先端のL2精度に近いことを示しています。
さらに、当社のQ&Aスイートは効果的な診断として機能し、認識、予測、および計画の明確なVLMの改善を明らかにしています。
コード、データ、モデルはhttps://github.com/ahydchh/impromptu-vlaで入手できます。
要約(オリジナル)
Vision-Language-Action (VLA) models for autonomous driving show promise but falter in unstructured corner case scenarios, largely due to a scarcity of targeted benchmarks. To address this, we introduce Impromptu VLA. Our core contribution is the Impromptu VLA Dataset: over 80,000 meticulously curated video clips, distilled from over 2M source clips sourced from 8 open-source large-scale datasets. This dataset is built upon our novel taxonomy of four challenging unstructured categories and features rich, planning-oriented question-answering annotations and action trajectories. Crucially, experiments demonstrate that VLAs trained with our dataset achieve substantial performance gains on established benchmarks–improving closed-loop NeuroNCAP scores and collision rates, and reaching near state-of-the-art L2 accuracy in open-loop nuScenes trajectory prediction. Furthermore, our Q&A suite serves as an effective diagnostic, revealing clear VLM improvements in perception, prediction, and planning. Our code, data and models are available at https://github.com/ahydchh/Impromptu-VLA.
arxiv情報
| 著者 | Haohan Chi,Huan-ang Gao,Ziming Liu,Jianing Liu,Chenyu Liu,Jinwei Li,Kaisen Yang,Yangcheng Yu,Zeda Wang,Wenyi Li,Leichen Wang,Xingtao Hu,Hao Sun,Hang Zhao,Hao Zhao | 
| 発行日 | 2025-05-29 17:59:46+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
