要約
言語モデルは、テキストベースのトレーニングから蓄積された無限の知識により、運転シナリオの分析における前例のない能力を明らかにします。
当然のことながら、彼らは特に、テキストで十分に文書化されている交通法でトリガーされたものなど、ルールベースの相互作用の分析に優れている必要があります。
ただし、そのような相互作用分析は、それに対処する専用の言語データセットがないため、未脱カクルのままです。
したがって、Waymo Open Motion Dataset-Reasoning(WOMD-Reasoning)は、運転シナリオにおけるトラフィックルール誘導の相互作用の説明と推論に焦点を当てたWOMD上に構築された包括的な大規模なQ&ASデータセットを提案します。
WOMD-Reasoningは、最大のマルチモーダルQ&Aデータセットをはるかに紹介し、実際の運転シナリオで300万のQ&Aを提供し、マップの説明やモーションステータスの説明から、エージェントの相互作用、行動、意図の物語や分析までの幅広い運転トピックをカバーしています。
WOMD Reasoningのアプリケーションを紹介するために、WOMD Reasoningで微調整されたモーションランゲージモデルであるMotion-llavaを設計します。
定量的および定性的評価は、WOMD Reasoningデータセットとモーションラバの出力で実行され、WOMD-Reasoningのデータ品質と幅広いアプリケーションをサポートし、相互作用予測、トラフィックルールコンプライアンス計画などでサポートします。
それを構築するためのコードとプロンプトは、https://github.com/yhli123/womd-reasoningで利用できます。
要約(オリジナル)
Language models uncover unprecedented abilities in analyzing driving scenarios, owing to their limitless knowledge accumulated from text-based pre-training. Naturally, they should particularly excel in analyzing rule-based interactions, such as those triggered by traffic laws, which are well documented in texts. However, such interaction analysis remains underexplored due to the lack of dedicated language datasets that address it. Therefore, we propose Waymo Open Motion Dataset-Reasoning (WOMD-Reasoning), a comprehensive large-scale Q&As dataset built on WOMD focusing on describing and reasoning traffic rule-induced interactions in driving scenarios. WOMD-Reasoning also presents by far the largest multi-modal Q&A dataset, with 3 million Q&As on real-world driving scenarios, covering a wide range of driving topics from map descriptions and motion status descriptions to narratives and analyses of agents’ interactions, behaviors, and intentions. To showcase the applications of WOMD-Reasoning, we design Motion-LLaVA, a motion-language model fine-tuned on WOMD-Reasoning. Quantitative and qualitative evaluations are performed on WOMD-Reasoning dataset as well as the outputs of Motion-LLaVA, supporting the data quality and wide applications of WOMD-Reasoning, in interaction predictions, traffic rule compliance plannings, etc. The dataset and its vision modal extension are available on https://waymo.com/open/download/. The codes & prompts to build it are available on https://github.com/yhli123/WOMD-Reasoning.
arxiv情報
著者 | Yiheng Li,Cunxin Fan,Chongjian Ge,Zhihao Zhao,Chenran Li,Chenfeng Xu,Huaxiu Yao,Masayoshi Tomizuka,Bolei Zhou,Chen Tang,Mingyu Ding,Wei Zhan |
発行日 | 2025-05-25 22:09:28+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google