WOMD-Reasoning: A Large-Scale Language Dataset for Interaction and Driving Intentions Reasoning

要約

我々は、WOMD上に構築された言語アノテーションデータセットであるWaymo Open Motion Dataset-Reasoning (WOMD-Reasoning)を提案する。これまでの言語データセットは、主に近距離による相互作用を捉えていた。しかし、交通ルールや人間の意図によって引き起こされる相互作用は、長距離で発生する可能性があり、非常に一般的であるにもかかわらず、まだ十分にカバーされておらず、予測モデルや計画モデルが理解することはより困難である。そのため、WOMD-Reasoningでは、これらの相互作用に広く焦点を当て、様々なタイプの相互作用について合計409kのQ&Aを提供している。さらに、WOMD-Reasoningは、実世界の運転シナリオに関するQ&Aデータセットとしては圧倒的に大きく、地図の説明、運動状態の説明から、エージェントのインタラクション、行動、意図に関するナラティブや分析まで、自律走行に関する様々なトピックをカバーする約300万件のQ&Aを提供する。この広範なテキスト情報により、シーン記述、予測、プランニングなどの幅広いアプリケーションのために、運転関連の大規模言語モデル(LLM)を微調整することができます。WOMD-Reasoningからインタラクション言語と意図言語を取り込むことで、最先端の軌跡予測モデルであるMultipath++の性能が大幅に向上し、$MR_6$で10.14%、$minFDE_6$で6.90%の改善が見られ、WOMD-Reasoningの有効性が証明された。我々は、WOMD-Reasoningが運転中のLLMに力を与え、より良いインタラクション理解と行動推論を提供することを期待している。データセットはhttps://waymo.com/open/download 。

要約(オリジナル)

We propose Waymo Open Motion Dataset-Reasoning (WOMD-Reasoning), a language annotation dataset built on WOMD, with a focus on describing and reasoning interactions and intentions in driving scenarios. Previous language datasets primarily captured interactions caused by close distances. However, interactions induced by traffic rules and human intentions, which can occur over long distances, are yet sufficiently covered, despite being very common and more challenging for prediction or planning models to understand. Therefore, our WOMD-Reasoning focuses extensively on these interactions, providing a total of 409k Q&As for varying types of interactions. Additionally, WOMD-Reasoning presents by far the largest Q&A dataset on real-world driving scenarios, with around 3 million Q&As covering various topics of autonomous driving from map descriptions, motion status descriptions, to narratives and analyses of agents’ interactions, behaviors, and intentions. This extensive textual information enables fine-tuning driving-related Large Language Models (LLMs) for a wide range of applications like scene description, prediction, planning, etc. By incorporating interaction and intention language from WOMD-Reasoning, we see significant enhancements in the performance of the state-of-the-art trajectory prediction model, Multipath++, with improvements of 10.14% in $MR_6$ and 6.90% in $minFDE_6$, proving the effectiveness of WOMD-Reasoning. We hope WOMD-Reasoning would empower LLMs in driving to offer better interaction understanding and behavioral reasoning. The dataset is available on https://waymo.com/open/download .

arxiv情報

著者 Yiheng Li,Chongjian Ge,Chenran Li,Chenfeng Xu,Masayoshi Tomizuka,Chen Tang,Mingyu Ding,Wei Zhan
発行日 2024-07-05 06:26:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.RO パーマリンク