要約
自動運転 (AD) タスクの急速な進歩により、特に堅牢な論理的推論と認知能力を統合して包括的なエンドツーエンドの計画を可能にするビジョン言語モデル (VLM) の利用において、エンドツーエンドのファッションへの大きな移行が起こりました。
。
ただし、これらの VLM ベースのアプローチは、2D ビジョン トークナイザーとエゴ カー プランニング用の大規模言語モデル (LLM) を統合する傾向があり、信頼性の高いプランニングの基礎となる 3D 幾何学的事前分布が欠如しています。
当然のことながら、この観察は重大な懸念を引き起こします: 2D トークン化された LLM は 3D 環境を正確に認識できるでしょうか?
3D オブジェクト検出、ベクトル化された地図構築、環境キャプションにわたる現在の VLM ベースの手法を評価したところ、残念ながら答えは NO であることがわかりました。
言い換えれば、2D トークン化 LLM は信頼性の高い自動運転を提供できません。
これに応じて、LLM を 1 層リニア プロジェクターと接続する 3D トークナイザーとして DETR スタイルの 3D パーセプトロンを導入します。
アトラスと呼ばれるこのシンプルかつエレガントな戦略は、3D 物理世界の固有の事前分布を活用し、高解像度のマルチビュー画像の処理と時空間モデリングの採用を同時に可能にします。
Atlas はそのシンプルさにも関わらず、nuScenes データセット上の 3D 検出と自我計画タスクの両方で優れたパフォーマンスを示し、3D トークン化された LLM が信頼性の高い自動運転の鍵であることを証明しています。
コードとデータセットはリリースされます。
要約(オリジナル)
Rapid advancements in Autonomous Driving (AD) tasks turned a significant shift toward end-to-end fashion, particularly in the utilization of vision-language models (VLMs) that integrate robust logical reasoning and cognitive abilities to enable comprehensive end-to-end planning. However, these VLM-based approaches tend to integrate 2D vision tokenizers and a large language model (LLM) for ego-car planning, which lack 3D geometric priors as a cornerstone of reliable planning. Naturally, this observation raises a critical concern: Can a 2D-tokenized LLM accurately perceive the 3D environment? Our evaluation of current VLM-based methods across 3D object detection, vectorized map construction, and environmental caption suggests that the answer is, unfortunately, NO. In other words, 2D-tokenized LLM fails to provide reliable autonomous driving. In response, we introduce DETR-style 3D perceptrons as 3D tokenizers, which connect LLM with a one-layer linear projector. This simple yet elegant strategy, termed Atlas, harnesses the inherent priors of the 3D physical world, enabling it to simultaneously process high-resolution multi-view images and employ spatiotemporal modeling. Despite its simplicity, Atlas demonstrates superior performance in both 3D detection and ego planning tasks on nuScenes dataset, proving that 3D-tokenized LLM is the key to reliable autonomous driving. The code and datasets will be released.
arxiv情報
著者 | Yifan Bai,Dongming Wu,Yingfei Liu,Fan Jia,Weixin Mao,Ziheng Zhang,Yucheng Zhao,Jianbing Shen,Xing Wei,Tiancai Wang,Xiangyu Zhang |
発行日 | 2024-05-28 16:57:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google