Embodied Understanding of Driving Scenarios

要約

身体化されたシーンの理解は、自律エージェントがオープンな運転シナリオを認識、解釈し、対応するための基礎として機能します。
このような理解は通常、視覚言語モデル (VLM) に基づいています。
それにもかかわらず、既存の VLM は 2D ドメインに限定されており、空間認識や長期的な外挿能力が欠けています。
私たちは自動運転の重要な側面を再検討し、適切なルーブリックを策定します。
ここでは、エージェントが大きな空間的および時間的スパンを持つ運転シーンを理解するために調整された包括的なフレームワークである、身体的言語モデル (ELM) を紹介します。
ELM には空間認識の事前トレーニングが組み込まれており、エージェントに堅牢な空間位置特定機能を与えます。
さらに、このモデルは時間認識トークン選択を採用して、時間的手がかりを正確に照会します。
私たちは再定式化された多面ベンチマークに基づいて ELM をインスタンス化しており、これはあらゆる面で以前の最先端のアプローチを上回っています。
すべてのコード、データ、モデルはパブリックに共有されます。

要約(オリジナル)

Embodied scene understanding serves as the cornerstone for autonomous agents to perceive, interpret, and respond to open driving scenarios. Such understanding is typically founded upon Vision-Language Models (VLMs). Nevertheless, existing VLMs are restricted to the 2D domain, devoid of spatial awareness and long-horizon extrapolation proficiencies. We revisit the key aspects of autonomous driving and formulate appropriate rubrics. Hereby, we introduce the Embodied Language Model (ELM), a comprehensive framework tailored for agents’ understanding of driving scenes with large spatial and temporal spans. ELM incorporates space-aware pre-training to endow the agent with robust spatial localization capabilities. Besides, the model employs time-aware token selection to accurately inquire about temporal cues. We instantiate ELM on the reformulated multi-faced benchmark, and it surpasses previous state-of-the-art approaches in all aspects. All code, data, and models will be publicly shared.

arxiv情報

著者 Yunsong Zhou,Linyan Huang,Qingwen Bu,Jia Zeng,Tianyu Li,Hang Qiu,Hongzi Zhu,Minyi Guo,Yu Qiao,Hongyang Li
発行日 2024-03-07 15:39:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク