要約
私たちは、Waymo Open Motion Dataset-Reasoning (WOMD-Reasoning) を提案します。これは、WOMD 上に構築された 300 万の Q&A を備えた包括的な大規模データセットで、シナリオを運転する際のインタラクションと意図の説明と推論に焦点を当てています。
運転用の既存の言語データセットは、主に近距離によって引き起こされるインタラクションをキャプチャします。
しかし、長距離で発生する可能性のある、交通ルールや人間の意図によって引き起こされる相互作用はまだ十分にカバーされています。
これに対処するために、WOMD-Reasoning は、現実世界の運転シナリオに関するこれまでで最大のマルチモーダル Q&A データセットを提供し、地図の説明や動作ステータスの説明から、エージェントの対話、行動、
意図。
さらに、堅牢なインタラクション推論機能を備え、提案されたデータセットに基づいて微調整されたモーション言語モデルである Motion-LLaVA を紹介します。
さまざまな入力モダリティ、推論手法、ネットワーク アーキテクチャなど、さまざまな構成にわたってそのパフォーマンスをベンチマークします。
WOMD-Reasoning の堅牢、多様、マルチモーダルな性質は、将来の自動運転研究を前進させ、幅広い応用を可能にする可能性を浮き彫りにしています。
データセットとそのビジョン モーダル拡張機能は https://waymo.com/open/download で入手でき、それを構築するためのコードとプロンプトは https://github.com/yhli123/WOMD-Reasoning で入手できます。
要約(オリジナル)
We propose Waymo Open Motion Dataset-Reasoning (WOMD-Reasoning), a comprehensive large-scale dataset with 3 million Q&As built on WOMD focusing on describing and reasoning interactions and intentions in driving scenarios. Existing language datasets for driving primarily capture interactions caused by close distances. However, interactions induced by traffic rules and human intentions, which can occur over long distances, are yet sufficiently covered. To address this, WOMD-Reasoning presents by far the largest multi-modal Q&A dataset on real-world driving scenarios, covering a wide range of driving topics from map descriptions and motion status descriptions to narratives and analyses of agents’ interactions, behaviors, and intentions. We further introduce Motion-LLaVA, a motion-language model fine-tuned on the proposed dataset with robust interaction reasoning capabilities. We benchmark its performance across various configurations including different input modalities, reasoning techniques, and network architectures. The robust, diverse, and multi-modal nature of WOMD-Reasoning highlights its potential to advance future autonomous driving research and enable a broad range of applications. The dataset and its vision modal extension are available at https://waymo.com/open/download, and the codes & prompts to build it are available at https://github.com/yhli123/WOMD-Reasoning.
arxiv情報
著者 | Yiheng Li,Cunxin Fan,Chongjian Ge,Zhihao Zhao,Chenran Li,Chenfeng Xu,Huaxiu Yao,Masayoshi Tomizuka,Bolei Zhou,Chen Tang,Mingyu Ding,Wei Zhan |
発行日 | 2024-12-02 17:31:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google